時間:2023-07-10 10:54:59來源:信息化時代
包含了“預(yù)訓(xùn)練”和“大模型”兩層含義,即模型在大規(guī)模數(shù)據(jù)集上完成了預(yù)訓(xùn)練后無需微調(diào),或僅需要少量數(shù)據(jù)的微調(diào),就能直接支撐各類應(yīng)用。
AI大模型成為人工智能邁向通用智能的里程碑技術(shù)。AI大模型的落地應(yīng)用使得AI的三要素由“數(shù)據(jù)、算法、算力”演變?yōu)椤皥鼍、產(chǎn)品、算力”。基于數(shù)據(jù)的互聯(lián)網(wǎng)時代和基于算力的云計(jì)算時代之后,我們將進(jìn)入基于大模型的AI時代。
AI大模型的發(fā)展歷程
? 從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個階段,每年參數(shù)規(guī)模至少提升10倍,參數(shù)量實(shí)現(xiàn)了從億級到百萬億級的突破。目前千億級參數(shù)規(guī)模的大模型成為主流。
?從技術(shù)架構(gòu)上看, Transformer架構(gòu)是當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ),由此形成了GPT和BERT兩條主要的技術(shù)路線,其中BERT最有名的落地項(xiàng)目是谷歌的AlphaGo。在GPT3.0發(fā)布后,GPT逐漸成為大模型的主流路線。綜合來看,當(dāng)前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取GPT模式,如百度文心一言,阿里發(fā)布的通義千問等。
? 從模態(tài)支持上看,AI大模型可分為自然語言處理大模型,CV大模型、科學(xué)計(jì)算大模型等。AI大模型支持的模態(tài)更加多樣,從支持文本、圖片、圖像、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。
?從應(yīng)用領(lǐng)域上看,大模型可分為通用大模型和行業(yè)大模型兩種。通用大模型是具有強(qiáng)大泛化能力,可在不進(jìn)行微調(diào)或少量微調(diào)的情況下完成多場景任務(wù),相當(dāng)于AI完成了“通識教育”,ChatGPT、華為的盤古都是通用大模型。行業(yè)大模型則是利用行業(yè)知識對大模型進(jìn)行微調(diào),讓AI完成“專業(yè)教育”,以滿足在能源、金融、制造、傳媒等不同領(lǐng)域的需求,如金融領(lǐng)域的BloombergGPT、航天-百度文心等。
當(dāng)前,AI大模型的發(fā)展正從以不同模態(tài)數(shù)據(jù)為基礎(chǔ)過渡到與知識、可解釋性、學(xué)習(xí)理論等方面相結(jié)合,呈現(xiàn)出全面發(fā)力、多點(diǎn)開花的新格局。
AI大模型發(fā)展階段
AI大模型發(fā)展歷經(jīng)三個階段,分別是萌芽期、沉淀期和爆發(fā)期。
?萌芽期(1950-2005):以CNN為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型階段。1956年,從計(jì)算機(jī)專家約翰·麥卡錫提出“人工智能”概念開始,AI發(fā)展由最開始基于小規(guī)模專家知識逐步發(fā)展為基于機(jī)器學(xué)習(xí)。1980年,卷積神經(jīng)網(wǎng)絡(luò)的雛形CNN誕生。1998年,現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)LeNet-5誕生,機(jī)器學(xué)習(xí)方法由早期基于淺層機(jī)器學(xué)習(xí)的模型,變?yōu)榱嘶谏疃葘W(xué)習(xí)的模型,為自然語言生成、計(jì)算機(jī)視覺等領(lǐng)域的深入研究奠定了基礎(chǔ),對后續(xù)深度學(xué)習(xí)框架的迭代及大模型發(fā)展具有開創(chuàng)性的意義。
?沉淀期(2006-2019):以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)模型階段。2013年,自然語言處理模型 Word2Vec誕生,首次提出將單詞轉(zhuǎn)換為向量的“詞向量模型”,以便計(jì)算機(jī)更好地理解和處理文本數(shù)據(jù)。2014年,被譽(yù)為21世紀(jì)最強(qiáng)大算法模型之一的GAN(對抗式生成網(wǎng)絡(luò))誕生,標(biāo)志著深度學(xué)習(xí)進(jìn)入了生成模型研究的新階段。2017年,Google顛覆性地提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,OpenAI和Google分別發(fā)布了GPT-1與BERT大模型,意味著預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。在探索期,以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)架構(gòu),奠定了大模型的算法架構(gòu)基礎(chǔ),使大模型技術(shù)的性能得到了顯著提升。
?爆發(fā)期(2020-至今):以GPT為代表的預(yù)訓(xùn)練大模型階段。
2020年,OpenAI公司推出了GPT-3.模型參數(shù)規(guī)模達(dá)到了1750億,成為當(dāng)時最大的語言模型,并且在零樣本學(xué)習(xí)任務(wù)上實(shí)現(xiàn)了巨大性能提升。隨后,更多策略如基于人類反饋的強(qiáng)化學(xué)習(xí)(RHLF)、代碼預(yù)訓(xùn)練、指令微調(diào)等開始出現(xiàn), 被用于進(jìn)一步提高推理能力和任務(wù)泛化。2022年11月,搭載了GPT3.5的ChatGPT橫空出世,憑借逼真的自然語言交互與多場景內(nèi)容生成能力,迅速引爆互聯(lián)網(wǎng)。2023年3月,最新發(fā)布的超大規(guī)模多模態(tài)預(yù)訓(xùn)練大模型——GPT-4.具備了多模態(tài)理解與多類型內(nèi)容生成能力。在迅猛發(fā)展期,大數(shù)據(jù)、大算力和大算法完美結(jié)合,大幅提升了大模型的預(yù)訓(xùn)練和生成能力以及多模態(tài)多場景應(yīng)用能力。如ChatGPT的巨大成功,就是在微軟Azure強(qiáng)大的算力以及wiki等海量數(shù)據(jù)支持下,在Transformer架構(gòu)基礎(chǔ)上,堅(jiān)持GPT模型及人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行精調(diào)的策略下取得的。
國內(nèi)外企業(yè)發(fā)展概況
目前,在大模型領(lǐng)域,國內(nèi)外巨頭的競爭已經(jīng)白熱化。OpenAI已成為引領(lǐng)大模型發(fā)展的標(biāo)桿企業(yè)。繼多模態(tài)大模型GPT-4發(fā)布后,預(yù)計(jì)今年四季度OpenAI將發(fā)布更為高級的ChatGPT-5版本。微軟借助對OpenAI的投資與合作,將旗下Office辦公產(chǎn)品全線整合,已在3月下旬推出Copilot Office。5月24日,微軟宣布Win11接入GPT-4.
圖片來源:賽迪智庫
5月10日,微軟的直接競爭對手谷歌推出新一代大模型PaLM 2.已有超過25個AI產(chǎn)品和功能全線接入PaLM 2.包括原有對話機(jī)器人Bard,AI+辦公助手Duet AI、AI+搜索引擎等,Meta則發(fā)布大模型LLaMA,加入競賽。亞馬遜與人工智能初創(chuàng)公司Hugging Face合作開發(fā)ChatGPT競品——BLOOM。
國內(nèi),產(chǎn)投研各方均已加快布局步伐。一是國內(nèi)科技龍頭企業(yè)密集發(fā)布自研大模型。百度發(fā)布大模型文心一言,阿里發(fā)布首個超大規(guī)模語言模型通義千問,騰訊混元AI大模型團(tuán)隊(duì)推出了萬億級別中文NLP預(yù)訓(xùn)練模型HunYuan-NLP-1T。華為發(fā)布的鵬城盤古大模型是業(yè)界首個千億級生成和理解中文NLP大模型。
二是投創(chuàng)界積極入局大模型競賽。美團(tuán)聯(lián)合創(chuàng)始人王慧文自帶5000萬美元入局AI大模型,搜狗前CEO王小川與搜狗前COO茹麗云共同創(chuàng)立百川智能,瀾舟科技發(fā)布其語言生成模型——孟子MChat可控大模型,西湖心辰也推出了心辰Chat大模型。
三是高校與科研院所積極布局大模型。復(fù)旦大學(xué)推出國內(nèi)首個類ChatGPT大模型MOSS,清華大學(xué)知識工程實(shí)驗(yàn)室與其技術(shù)成果轉(zhuǎn)化公司智譜AI發(fā)布ChatGLM,中科院自動化所推出多模態(tài)大模型紫東太初,IDEA 研究院 CCNL推出開源通用大模型“姜子牙”。
目前大模型面臨四個挑戰(zhàn)
第一,評估驗(yàn)證:當(dāng)前針對大模型的評估數(shù)據(jù)集往往是更像“玩具”的學(xué)術(shù)數(shù)據(jù)集,但是這些學(xué)術(shù)數(shù)據(jù)集無法完全反應(yīng)現(xiàn)實(shí)世界中形形色色的問題與挑戰(zhàn),因此亟需實(shí)際的數(shù)據(jù)集在多樣化、復(fù)雜的現(xiàn)實(shí)問題上對模型進(jìn)行評估,確保模型可以應(yīng)對現(xiàn)實(shí)世界的挑戰(zhàn);
第二,倫理道德:模型應(yīng)該與人類的價值觀相符,確保模型行為符合預(yù)期,作為一個高級的復(fù)雜系統(tǒng),如果不認(rèn)真處理這種道德問題,有可能會為人類醞釀一場災(zāi)難;
第三,安全隱患:需要更多的做好模型的可解釋性、監(jiān)督管理工作,安全問題應(yīng)該是模型開發(fā)的重要組成部分,而非錦上添花可有可無的裝飾;
第四,發(fā)展趨勢:模型的性能還會隨著模型規(guī)模的增加而增長嗎?這個問題估計(jì) OpenAI 也難以回答,我們針對大模型的神奇現(xiàn)象的了解仍然十分有限,針對大模型原理性的見解仍然十分珍貴。
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。