微軟在最近的人工智能浪潮中可謂是占到了聚光燈下,從花重金完成OpenAI的交易,到把ChatGPT集成到Bing搜索引擎中,都站在了整個(gè)領(lǐng)域發(fā)展的前沿。而在幾天前,又有消息傳出微軟正在和AMD合作開發(fā)自研的人工智能芯片。整個(gè)故事一波三折,我們?cè)谶@里把微軟自研人工智能芯片的大概脈絡(luò)梳理一下。
首先,大約在半個(gè)月前,有媒體報(bào)道微軟正在為了大語言模型(LLM,目前最前沿的人工智能技術(shù),同時(shí)也是ChatGPT背后的模型技術(shù))自研芯片,內(nèi)部代號(hào)是Athena。然后,在五月二號(hào),在AMD發(fā)布2023年第一季度財(cái)報(bào)之后的分析師電話會(huì)議上,有分析師問到AMD如何看待目前互聯(lián)網(wǎng)云計(jì)算公司自研芯片,是否有和相關(guān)公司合作研發(fā)半定制芯片的計(jì)劃,AMD CEO Lisa Su表示AMD目前在CPU、GPU、FPGA和DPU等領(lǐng)域擁有非常完整的IP庫,同時(shí)也有很強(qiáng)的半定制芯片團(tuán)隊(duì),所以公司有計(jì)劃在該領(lǐng)域進(jìn)一步投入來為大客戶合作。兩天后,彭博社報(bào)道AMD正在和微軟合作人工智能芯片,一方面微軟在為AMD提供人工智能方面的研發(fā)支持,另一方面AMD正在為微軟開發(fā)Athena芯片。在該報(bào)道發(fā)出之后,AMD的股價(jià)一度上漲6%。緊接著彭博社的報(bào)道,微軟發(fā)言人表示AMD是微軟重要的合作伙伴,但是目前微軟的Athena芯片并非由AMD開發(fā)。但是,微軟并沒有否認(rèn)和AMD在人工智能方面合作的報(bào)道。
我們認(rèn)為,總結(jié)現(xiàn)有的報(bào)道,一方面AMD的半定制芯片領(lǐng)域?qū)?huì)是未來人工智能領(lǐng)域公司的重點(diǎn)投入方向之一,因?yàn)槿斯ぶ悄軕?yīng)用的大客戶(主要是互聯(lián)網(wǎng)科技巨頭)對(duì)于這個(gè)領(lǐng)域有非常大的興趣;另一方面微軟雖然Athena芯片未必是直接交由AMD開發(fā),但是微軟在人工智能硬件方面和AMD合作開發(fā)的可能性很大。目前看來,最有可能的狀況是微軟正在和AMD合作開發(fā)一整套用于加速人工智能大語言模型的硬件解決方案,該解決方案中包括了微軟自研的Athena芯片,同時(shí)也包括了AMD的CPU等芯片。在Athena芯片開發(fā)過程中,很大可能微軟會(huì)考慮加入對(duì)于AMD芯片組相關(guān)的接口和優(yōu)化(甚至可能會(huì)用到一些AMD的IP),同時(shí)AMD在設(shè)計(jì)該合作的硬件解決方案中,有可能也會(huì)考慮加入一些由微軟定義的半定制成分(例如數(shù)據(jù)接口,存儲(chǔ)帶寬,對(duì)于微軟人工智能框架的優(yōu)化等)。
最后在芯片系統(tǒng)集成方面,如果微軟使用AMD已經(jīng)具有豐富經(jīng)驗(yàn)的高級(jí)封裝技術(shù)把Athena和AMD的芯片集成到一起也會(huì)是一個(gè)情理之中的結(jié)果,而在上層軟件整合方面,預(yù)計(jì)微軟和AMD會(huì)深度合作并且保證整個(gè)人工智能系統(tǒng)能高效地運(yùn)行在系統(tǒng)中。
看到這里的發(fā)展,不禁讓人感慨時(shí)過境遷:30年前,正是微軟和Intel深度合作的Wintel聯(lián)盟點(diǎn)燃了整個(gè)PC市場(chǎng)的高速發(fā)展,微軟和Intel都在該過程中獲得了高速增長(zhǎng),而在那個(gè)時(shí)候AMD還是一個(gè)市場(chǎng)上可有可無的角色,甚至有說法認(rèn)為Intel留著AMD主要是避免觸發(fā)反壟斷法被拆分;而到了今天,AMD的市值已經(jīng)超越了Intel,微軟則在最火熱的人工智能領(lǐng)域選擇了和AMD合作。另一方面,我們認(rèn)為微軟和AMD在硬件和芯片領(lǐng)域深度合作也掀開了科技巨頭自研芯片的新篇章,即從強(qiáng)調(diào)自己造芯片到強(qiáng)調(diào)和傳統(tǒng)芯片公司合作——注意這里的合作并不只是代工或者設(shè)計(jì)服務(wù)方面的合作,而是在設(shè)計(jì)指標(biāo)、IP、軟硬件接口等領(lǐng)域的深度合作。
互聯(lián)網(wǎng)科技公司自研芯片的歷史
我們不妨回顧一下互聯(lián)網(wǎng)公司造芯的歷史。互聯(lián)網(wǎng)公司自研芯片幾乎和2016年開始的人工智能熱潮同步。人工智能的崛起對(duì)于互聯(lián)網(wǎng)的業(yè)務(wù)起了決定性的影響,在云端,人工智能技術(shù)大大提高了推薦系統(tǒng)和廣告系統(tǒng)等互聯(lián)網(wǎng)公司的核心業(yè)務(wù),而在終端,人工智能也為諸多重要的計(jì)算機(jī)視覺和語音技術(shù)賦能。為了人工智能相關(guān)業(yè)務(wù)而自研芯片的公司幾乎囊括了所有的科技巨頭,包括谷歌、微軟、亞馬遜、阿里巴巴、字節(jié)跳動(dòng)、百度等等。從自研芯片的出發(fā)點(diǎn)來看,過去互聯(lián)網(wǎng)科技公司自研芯片主要出于兩方面的考慮,即成本和功能。
從成本角度來看,由于人工智能計(jì)算需要非常大的算力,因此成本也很高。供應(yīng)鏈角度來看,Nvidia是最主流的云端人工智能芯片供應(yīng)商,而其GPU的售價(jià)一方面很高,另一方面對(duì)于科技巨頭來說過分依賴單一供應(yīng)商也存在供應(yīng)鏈風(fēng)險(xiǎn)成本(尤其是對(duì)于中國互聯(lián)網(wǎng)巨頭來說,依賴Nvidia的風(fēng)險(xiǎn)更是由于受到地緣政治的影響存在很高的不確定性)。而另一個(gè)角度是GPU的能效比在運(yùn)行人工智能應(yīng)用時(shí)并不完美,事實(shí)上在云端數(shù)據(jù)中心應(yīng)用中,有很大一部電費(fèi)成本是在為人工智能應(yīng)用在買單。因此,互聯(lián)網(wǎng)科技巨頭在云端人工智能芯片領(lǐng)域自研的主要目的是一方面減少對(duì)于Nvidia的依賴,另一方面是希望能實(shí)現(xiàn)比Nvidia更好的能效比,這樣在大規(guī)模部署的時(shí)候,從綜合成本的角度來看可以比直接購買Nvidia的GPU成本更低。在這方面,谷歌的TPU是一個(gè)著名的例子,在迭代了幾代之后,我們看到目前谷歌TPU的性能和Nvidia的GPU通常相類似,但是在能效比等影響成本的角度,可以實(shí)現(xiàn)比Nvidia更好。
另一個(gè)互聯(lián)網(wǎng)科技公司自研芯片的主要目的是為了實(shí)現(xiàn)更強(qiáng)的功能,即目前市面上并不存在能滿足公司需求的芯片,因此需要能自研芯片來滿足設(shè)計(jì)需求,同時(shí)相較于使用第三方通用芯片的其他公司創(chuàng)造了更高的產(chǎn)品競(jìng)爭(zhēng)力。這里的典型例子就是微軟在HoloLens中使用的自研HPU芯片來加速人工智能機(jī)器視覺相關(guān)的應(yīng)用,從而為HoloLens的核心功能模塊(例如室內(nèi)SLAM定位等)提供足夠的算力同時(shí)不會(huì)消耗太多電池。而谷歌用在Pixel手機(jī)上的Tensor處理器也是另一個(gè)相關(guān)的例子。
互聯(lián)網(wǎng)公司之前的自研芯片往往強(qiáng)調(diào)“自主”這個(gè)方向。自主意味著自研芯片的最關(guān)鍵模塊(IP)以及系統(tǒng)架構(gòu)是由互聯(lián)網(wǎng)公司自己設(shè)計(jì)。在實(shí)際操作層面,由于互聯(lián)網(wǎng)科技巨頭畢竟在芯片行業(yè)積累不多,因此通常會(huì)構(gòu)建一支數(shù)百人的團(tuán)隊(duì),該團(tuán)隊(duì)主要負(fù)責(zé)芯片架構(gòu)定義和核心IP的設(shè)計(jì)驗(yàn)證;而另一方面,通用IP(例如DDR等)通常使用購買的方式,同時(shí)在后端設(shè)計(jì)等可以可以外包的職責(zé)則交由外部設(shè)計(jì)服務(wù)公司完成??偠灾?,互聯(lián)網(wǎng)公司造芯的通常模式是由自己的核心團(tuán)隊(duì)完成芯片架構(gòu)定義和核心模塊設(shè)計(jì),然后和中立的第三方IP公司和設(shè)計(jì)服務(wù)公司合作以購買其他的通用IP并完成整個(gè)芯片設(shè)計(jì)流程。
微軟掀開互聯(lián)網(wǎng)造芯新篇章
微軟和AMD的合作是科技巨頭造芯的一個(gè)新里程碑:這次微軟并不是只和中立的第三方設(shè)計(jì)服務(wù)公司合作,而且同時(shí)和一個(gè)傳統(tǒng)芯片大廠合作來設(shè)計(jì)支持下一代人工智能技術(shù)的芯片和硬件系統(tǒng)。換句話說,科技巨頭自研芯片從強(qiáng)調(diào)“自主”慢慢走到了今天開始走向“合作”。
如果我們想要探究這個(gè)轉(zhuǎn)變的原因,我們認(rèn)為目前至少有兩個(gè)因素在驅(qū)動(dòng)這個(gè)轉(zhuǎn)變。第一個(gè)因素就是未來人工智能對(duì)于算力的需求在指數(shù)級(jí)上升,其對(duì)于芯片系統(tǒng)復(fù)雜度的要求也是和之前不可同日而語。
舉例來說,2016年的時(shí)候最熱門的人工智能應(yīng)用是機(jī)器視覺(物體識(shí)別和分類任務(wù)),主流模型參數(shù)量通常在10M-100M之間,算力需求在1-10 GFLOPs左右;而目前流行的大語言模型(例如ChatGPT以及其下一代GPT-4)的模型參數(shù)量在1T數(shù)量級(jí),算力需求在1-10PTOPS左右,可以說無論是參數(shù)量還是算力需求都比原來大了1000倍以上。在這種情況下,人工智能芯片設(shè)計(jì)已經(jīng)和2017年時(shí)候谷歌主要為了機(jī)器視覺類人工智能任務(wù)設(shè)計(jì)的TPU完全不同——在2017年,谷歌TPU可以圍繞其基于脈動(dòng)陣列的卷積加速IP以及較大的片上SRAM就能完成大量的人工智能任務(wù)加速,其TPU可以說和系統(tǒng)里的其他芯片相對(duì)而言更獨(dú)立,可以只要把那個(gè)脈動(dòng)陣列IP和片上存儲(chǔ)做好了性能就能達(dá)標(biāo);而在2023年,由于模型的參數(shù)量和算力需求都已經(jīng)高了幾個(gè)數(shù)量級(jí),因此在設(shè)計(jì)人工智能加速芯片時(shí)必須仔細(xì)考慮硬件系統(tǒng)里的其他芯片,包括存儲(chǔ)訪問、高速數(shù)據(jù)互聯(lián)、數(shù)據(jù)和計(jì)算在CPU和人工智能芯片之間的分割和移動(dòng)等等,可以說是一個(gè)非常復(fù)雜的系統(tǒng),而且這個(gè)復(fù)雜系統(tǒng)里必須把每一個(gè)芯片的性能都做到合理才能保證整體系統(tǒng)的效率,否則系統(tǒng)里面的任何一塊芯片都可能成為整體效率的瓶頸——換句話說如果只是優(yōu)化人工智能加速芯片而沒有其他芯片的搭配優(yōu)化,那么很有可能整體性能并不會(huì)很高。
顯然,科技巨頭不可能去自研系統(tǒng)里的所有這些芯片,而必須和傳統(tǒng)芯片大廠深度合作才能完成一個(gè)整體都很優(yōu)化的系統(tǒng),尤其是AMD在整體系統(tǒng)整合(高級(jí)封裝技術(shù)和數(shù)據(jù)互聯(lián)技術(shù))都有非常深厚的積累,而微軟則在軟件層面有更多的能力,兩者深度合作可謂是優(yōu)勢(shì)互補(bǔ)。
除了系統(tǒng)復(fù)雜度之外,另外一個(gè)驅(qū)動(dòng)因素是目前的經(jīng)濟(jì)形勢(shì)。對(duì)于科技巨頭來說,雖然人工智能保持火熱,但是全球的整體宏觀經(jīng)濟(jì)形勢(shì)并不樂觀,因此科技巨頭都傾向于降低非核心業(yè)務(wù)擴(kuò)張和投入的程度。對(duì)于芯片業(yè)務(wù)來說,科技巨頭都更傾向于把投入放在刀刃上,即和人工智能核心加速相關(guān)的IP上,而在其他非核心IP和系統(tǒng)里面的其他芯片來說,科技巨頭會(huì)轉(zhuǎn)而交由合作伙伴去完成,而不是像幾年前一樣傾向于自己擴(kuò)張團(tuán)隊(duì)來做盡可能多的事情。
從未來來看,科技巨頭造芯的格局將會(huì)在某種程度上延續(xù)目前的格局,但是我們預(yù)計(jì)也會(huì)看到更多的和傳統(tǒng)芯片大廠的深度合作。如前所述,在下一代人工智能這樣的應(yīng)用中,我們可望會(huì)看到越來越多微軟和AMD這樣的合作來共同挑戰(zhàn)這樣的復(fù)雜系統(tǒng);另一方面,由于經(jīng)濟(jì)形勢(shì)的影響,我們預(yù)計(jì)會(huì)看到互聯(lián)網(wǎng)科技巨頭造芯的時(shí)候越來越多地移向上游,即定義芯片架構(gòu),以及交付核心IP,而這些IP在SoC里面的整合可以交由合作伙伴完成,甚至我們可能會(huì)看到更多特制版SoC,例如在公版SoC的設(shè)計(jì)基礎(chǔ)上集成了互聯(lián)網(wǎng)科技巨頭提供的核心IP這樣的方式,從而最大程度降低設(shè)計(jì)成本開銷。從這個(gè)角度來看,互聯(lián)網(wǎng)科技巨頭需要的不僅僅是一個(gè)設(shè)計(jì)服務(wù)伙伴,而更需要該芯片合作公司已經(jīng)有相關(guān)的SoC設(shè)計(jì)和量產(chǎn)經(jīng)驗(yàn)。從這個(gè)角度來看,AMD、三星、MTK等都會(huì)是這類業(yè)務(wù)的受益者,因?yàn)樗麄冇泻軓?qiáng)的設(shè)計(jì)服務(wù)/半定制芯片部門,同時(shí)也有尖端SoC設(shè)計(jì)量產(chǎn)的經(jīng)驗(yàn)。同時(shí),從技術(shù)角度來看,高級(jí)封裝和芯片粒技術(shù)可望將在這類芯片合作中起到核心賦能作用,因?yàn)槿绻苁褂眯酒?,那么就可以把科技巨頭的核心IP做到芯片粒中去和其他SoC集成,而無需在專門設(shè)計(jì)一個(gè)專用的SoC光罩掩膜,這樣就可以大大降低設(shè)計(jì)成本,另一方面也大大增加設(shè)計(jì)的靈活性——這可能也是微軟和在芯片粒高級(jí)封裝領(lǐng)域有豐富經(jīng)驗(yàn)的AMD合作的另一個(gè)理由。