大型語(yǔ)言和多模態(tài)模型的訓(xùn)練計(jì)算量也在穩(wěn)步增加(圖1.2.16)。用于訓(xùn)練Minerva(540B)的計(jì)算量大約是OpenAI的GPT-3(2022年6月發(fā)布)的9倍,是GPT-2(2019年2月發(fā)布)的1839倍。Minerva是谷歌于2022年6月發(fā)布的一個(gè)大型語(yǔ)言和多模模型,在定量推理問題上表現(xiàn)出了令人印象深刻的能力。
2019-22年選擇大型語(yǔ)言和多模態(tài)模型的訓(xùn)練計(jì)算(FLOP)
圖1.2.16
訓(xùn)練費(fèi)用
圍繞大型語(yǔ)言和多模態(tài)模型的話語(yǔ)的一個(gè)特殊主題與它們的假設(shè)成本有關(guān)。盡管人工智能公司很少公開談?wù)撚?xùn)練成本,但人們普遍猜測(cè),這些模型的訓(xùn)練成本為數(shù)百萬美元,而且隨著規(guī)模的擴(kuò)大,成本將變得越來越昂貴。本小節(jié)介紹了一種新的分析,其中人工智能索引研究團(tuán)隊(duì)對(duì)各種大型語(yǔ)言和多模態(tài)模型的訓(xùn)練成本進(jìn)行了估計(jì)(圖1.2.17)。這些估計(jì)是基于模型的作者所披露的硬件和訓(xùn)練時(shí)間。在沒有透露訓(xùn)練時(shí)間的情況下,我們根據(jù)硬件速度、訓(xùn)練計(jì)算和硬件利用率效率進(jìn)行計(jì)算。考慮到估計(jì)值的可能可變性,我們用中、高或低的標(biāo)簽來限定每個(gè)估計(jì)值:中估計(jì)值被認(rèn)為是中級(jí)估計(jì)值,高被認(rèn)為是高估估計(jì)值,低被認(rèn)為是低估估計(jì)值。在某些情況下,沒有足夠的數(shù)據(jù)來估計(jì)特定的大型語(yǔ)言和多模態(tài)模型的訓(xùn)練成本,因此這些模型在我們的分析中被省略了。
選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本
圖1.2.17
大型語(yǔ)言和多模態(tài)模型的成本與其規(guī)模之間也有明顯的關(guān)系。如圖1.2.18和1.2.19所示,具有更多參數(shù)的大型語(yǔ)言和多模態(tài)模型以及使用大量計(jì)算的訓(xùn)練往往更昂貴。
選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本和參數(shù)數(shù)
圖1.2.18
選擇大型語(yǔ)言和多模態(tài)模型的估計(jì)訓(xùn)練成本及訓(xùn)練計(jì)算(FLOP)
圖1.2.19
人工智能會(huì)議是研究人員分享其工作、與同行和合作者建立聯(lián)系的關(guān)鍵場(chǎng)所。出席會(huì)議表明了人們對(duì)一個(gè)科學(xué)領(lǐng)域的更廣泛的工業(yè)和學(xué)術(shù)興趣。在過去的20年里,人工智能會(huì)議的規(guī)模、數(shù)量和聲望都有所增長(zhǎng)。本節(jié)介紹了參加主要人工智能會(huì)議的趨勢(shì)數(shù)據(jù)。
2024-09-03 09:08
2024-09-01 08:20
2024-09-01 08:07
2024-08-30 09:30
2024-08-28 11:13
2024-08-26 10:28
2024-08-25 09:29
2024-08-23 09:38
2024-08-23 09:28
2024-08-23 09:16