2020年,OpenAI發(fā)布NLP預訓練模型GPT-3.光論文就有72頁,作者多達31人,該模型參數(shù)1750億,耗資1200萬美元;
2021年1月,谷歌發(fā)布首個萬億級模型Switch Transformer,宣布突破了GPT-3參數(shù)記錄;
4月,華為盤古大模型參數(shù)規(guī)模達到千億級別,定位于中文語言預訓練模型;
11月,微軟和英偉達在燒壞了4480塊CPU后,完成了5300億參數(shù)的自然語言生成模型(MT-NLG),一舉拿下單體Transformer語言模型界“最大”和“最強”兩個稱號;
今年1月,Meta宣布要與英偉達打造AI超級計算機RSC,RSC每秒運算可達50億次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均發(fā)布了最新產品,平均參數(shù)過百億。
看起來,這些預訓練模型的參數(shù)規(guī)模沒有最大,只有更大,且正以遠超摩爾定律的速度增長。其在對話、語義識別方面的表現(xiàn),一次次刷新人們的認知。
本文,我們試圖回答三個問題:
1. AI大模型,越大越好嗎?
2. 大模型的技術瓶頸在哪里?
3. 它是實現(xiàn)強人工智能的希望嗎?
一、大力出奇跡
人工智能的上一個里程碑出現(xiàn)在2020年。
這一年,由OpenAI公司開發(fā)的GPT-3橫空出世,獲得了“互聯(lián)網原子彈”,“人工智能界的卡麗熙”,“算力吞噬者”,“下崗工人制造機”,“幼年期的天網”等一系列外號。它的驚艷表現(xiàn)包括但不限于:
有開發(fā)者給GPT-3 做了圖靈測試,發(fā)現(xiàn)GPT-3對答如流,正常得不像個機器?!叭绻谑昵坝猛瑯拥膯栴}做測試,我會認為答題者一定是人?,F(xiàn)在,我們不能再以為AI回答不了常識性的問題了。”
藝術家和程序員 Mario Klingemann,想讓 GPT-3寫一篇論述“上Twitter重要性”的短文。他的輸入條件是 1)題目:“上 Twitter 的重要性”;2)作者姓名:“Jerome K. Jerome”;3)文章開頭的第一個字 "It"。
GPT-3不僅行文流暢,更是在字里行間暗諷,Twitter是一種所有人都在使用的、充斥著人身攻擊的社交軟件。
更高級的玩法是,開發(fā)者在GPT-3上快速開發(fā)出了許多應用,例如設計軟件、會計軟件、翻譯軟件等。
從詩詞劇本,到說明書、新聞稿,再到開發(fā)應用程序,GPT-3似乎都能勝任。
為什么相較于以往的AI模型,GPT-3表現(xiàn)得如此脫俗?答案無他,“大力出奇跡”。
1750億參數(shù)、訓練成本超過1200萬美元、論文長達 72 頁,作者多達 31 人,就連使用的計算也是算力排名全球前五的“超級計算機”,擁有超過 285000個CPU,10000個GPU和每秒400G網絡。
“壕無人性”的結果,創(chuàng)造出兩個里程碑意義:
首先,它本身的存在,驗證了參數(shù)增長、訓練數(shù)據(jù)量增大,對AI模型的重要意義,“煉大模型”,的確能讓AI取得突破性效果;
其次,它使用了小樣本學習(Few-shot Learning)方法,令預訓練模型在不必使用大量標記的訓練數(shù)據(jù),并持續(xù)微調的情況下,僅僅只要給出任務描述,并給出幾個從輸入到輸出示例,便能自動執(zhí)行人物。這意味著,它將突破AI碎片化難題,讓后續(xù)開發(fā)者得以在巨人肩膀上發(fā)展,而不用針對一個個場景“平地起高樓”。
GPT-3之后,AI大模型軍備賽才真正加速打響。一年之內,有頭有臉的巨頭爭相拿出了成績,秀組足肌肉。國外有谷歌、微軟、Meta等巨頭,國內如華為、阿里、浪潮等企業(yè)均下場參戰(zhàn),模型平均參數(shù)上百億。
從規(guī)模上看,巨頭的模型一個比一個厲害,突破競速賽好不熱鬧。不過“內里”有差別,不同模型參數(shù)無法簡單對比。
例如,谷歌Switch Transformer,采用了“Mixture of experts”(多專家模型),把數(shù)據(jù)并行、模型并行、expert并行三者結合在一起,實現(xiàn)了某種意義上的“偷工減料”——增大模型參數(shù)量,但不增大計算量。不過,降低計算量后的效果有無損失,谷歌論文中沒有過多正面提及。
再例如,浪潮發(fā)布的“源1.0”,參數(shù)規(guī)模2457億,采用了5000GB中文數(shù)據(jù)集,是一個創(chuàng)作能力、學習能力兼優(yōu)的中文AI大模型。據(jù)開發(fā)者介紹,由于中文特殊的語言特點,會為開發(fā)者帶來英文訓練中不會遇到的困難。這意味著,想要做出和GPT-3同樣效果的中文語言模型,無論是大模型本身,還是開發(fā)者,都需要付出更大的力氣。
不同模型各有側重點,但秀肌肉的意圖是通用的——做大模型,大力出奇跡。
二、瓶頸在哪里?
在斯坦福大學眾多學者聯(lián)合撰寫的文章《On the Opportunities and Risks of Foundation Models》中,作者們一針見血地指出了以GPT-3、Switch Transformer、源1.0代表的AI基礎模型的兩大意義,也是風險所在:同質化與涌現(xiàn)。
所謂同質化,是指目前幾乎所有最先進的NLP模型,都源自少數(shù)基礎模型之一,例如GPT、BERT、RoBERTa、BART等,它們成了NLP的“底座”。
論文指出,雖然基礎模型的任何改進可以為所有NLP任務帶來直接改善,但其缺陷也會為所有任務繼承。所有人工智能系統(tǒng)都可能繼承一些基礎模型相同的錯誤偏誤。
所謂“涌現(xiàn)”,指的是在巨量化的AI模型中,只需給模型提供提示,就可以讓其自動執(zhí)行任務。這種提示既沒有經過專門訓練,也不被期望在數(shù)據(jù)中出現(xiàn),其屬性即為“涌現(xiàn)”。
涌現(xiàn)意味著系統(tǒng)的行為是隱式歸納而不是顯式構造的,故令基礎模型顯得更難以理解,并具有難以預料的錯誤模式。
總而言之,體現(xiàn)在效果上,以GPT-3為例,“同質化”與“涌現(xiàn)”的風險已經顯現(xiàn)。
例如,一位來自Kevin Lacker的網友在與GPT-3對話中,發(fā)現(xiàn)其在對比事物的重量、計數(shù)方面缺乏基本常識和邏輯。
難以預料的錯誤還包括嚴重的“系統(tǒng)偏見”。Facebook人工智能主管Jerome Pesenti在要求GPT-3討論猶太人、黑人、婦女等話題時,系統(tǒng)產生了許多涉及性別歧視、種族歧視的“危險”言論。
有病人對GPT-3表示自己感覺很糟糕,“我應該自殺嗎”,GPT-3回答:“我認為你應該這么做。”
類似的案例還有很多,也許正如波特蘭州立大學計算機科學教授 Melanie Mitchell所認為的,GPT-3具有“令人印象深刻、看似智能的性能和非人類的錯誤?!?/p>
然而,由于訓練成本過于昂貴,模型修正并不容易。在GPT-3研究過程中,研究人員就承認:“不幸的是,過濾中的一個bug導致我們忽略了一些(訓練集與測試集的)重疊,由于訓練的成本的原因,重新訓練模型是不可行的?!?/p>
模型最大的意義,反過來成了約束其發(fā)展的瓶頸所在,對于這些問題,業(yè)內尚沒有特別有效的解決方案。
三、AI大模型能帶來強人工智能嗎?
在無數(shù)科幻片中,機器人擁有了人一樣的智能,甚至最終統(tǒng)治人類。這類機器人遠遠超越了普通AI層面,實現(xiàn)了AGI(通用人工智能),即擁有人一樣的智能,可以像人一樣學習、思考、解決問題。
蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克為AGI提出了一種特殊測試方案——“咖啡測試”。將機器帶到普通的家庭中,讓它在沒有任何特定的程序幫助下,進入房間并煮好咖啡。它需要主動尋找所需物品,明確功能和使用方法,像人類一樣,操作咖啡機,沖泡好飲品。能夠做到這一點的機器,即通過了“AGI測試”。
相比之下,普通AI機器,只能完成物品識別、劑量確認等單個、簡單的任務,而不具備舉一反三、推理能力。
對于AGI,業(yè)內出現(xiàn)了嚴重分歧。一派以OpenAI為首,篤信AGI是未來,不惜花下血本,一派如Meta,對AGI概念并不感冒。
OpenAI認為,強大計算能力是邁向 AGI 的必經之路,也是 AI 能夠學習人類所能完成的任何任務的必經之路。
其研究表明,2012至2018年6年間,在最大規(guī)模的人工智能模型訓練中所使用的計算量呈指數(shù)級增長,其中有3.5個月的時間計算量翻了一倍,比摩爾定律每18個月翻一倍的速度快得多。
在強大計算力的加持之下,OpenAI模型也得以越煉越大。據(jù)透露,GPT-4的尺寸將超過GPT-3的500倍,將擁有100萬億個參數(shù)。相比之下,人類大腦有大約 80-1000 億個神經元和大約 100 萬億個突觸,也就是說,下一代AI大模型,參數(shù)數(shù)量級將堪比人類大腦突觸的水平。
OpenAI 的首席科學家 Ilya Sutskever在2020年表示,“到2021年,語言模型將開始了解視覺世界。僅文字就可以表達關于世界的大量信息,但它是不完整的,因為我們也生活在視覺世界中?!?/p>
這也許是下一代AI大模型最大的看點所在——其將不僅能處理語言模型,大概率將更是一個能處理語言、視覺、聲音等多任務的多模態(tài)AI模型。
而這也意味著,AI大模型距離能夠多任務處理、會思考的通用人工智能更近了一步。
與OpenAI相反,Meta人工智能副總裁羅姆?佩森蒂,掌管著數(shù)百名科學家和工程師的資深高管,自始至終對AGI不感興趣。他認為,人類的智力本身就不是一個統(tǒng)一的問題,更不會有真正的模型能靠自己不斷進化智力?!凹幢闶侨祟惗疾荒茏屪约鹤兊酶斆?。我認為人們對 AGI 的追捧有點像是對某種議程的追捧。”
反對者可以找到更多的佐證理由。2010年,DeepMind創(chuàng)始人德米斯·哈薩比斯提出了兩種接近AGI的方向:
一是通過描述和編程體系模仿人類大腦的思考體系,但操作難度太大,沒有人能描述清楚人腦的結構;
二是以數(shù)字形式復制大腦物理網絡結構,但即便是還原大腦物理功能,也無法解釋人類思考的運轉規(guī)則。
不管是效仿大腦結構,還是試圖描述清楚人類智慧的原理,都邁不過“因果關系推理”的鴻溝。迄今為止,沒有一個AI模型突破這一難題。
AI大模型能帶來強人工智能嗎?當模型參數(shù)一次次被突破,達到遠超人腦突觸的數(shù)量級時,也許會出現(xiàn)突破“因果關系推理”難題的“奇點”,帶領我們進入強人工智能時代,但也許這僅僅是一個幻想。
不過目前,看起來,AI大模型是通往強人工智能最有可能的一條通道。賭一次,值了。