【英偉達(dá)公司在人工智能領(lǐng)域是否已經(jīng)不可戰(zhàn)勝?】在英偉達(dá)公司2019財(cái)年第一季度的財(cái)報(bào)當(dāng)中,其表現(xiàn)再次超出預(yù)期——總收入增長66%,強(qiáng)勁的數(shù)據(jù)中心業(yè)務(wù)增長71%(本季度收入達(dá)到1.7億美元)。對(duì)于英偉達(dá)公司而言,“數(shù)據(jù)中心”業(yè)務(wù)部分包括高性能計(jì)算(簡稱HPC)、數(shù)據(jù)中心托管圖形以及人工智能加速幾大組成部分。雖然這一增長率無疑令人印象深刻,但卻仍然不及該過去幾年當(dāng)中實(shí)現(xiàn)的2到3倍同比增長水平。這就引出了我們今天將要討論的有趣話題。這種增長速率只是種周期性的波動(dòng),還是說業(yè)務(wù)規(guī)模達(dá)到一定程度后的必然下降?谷歌張量處理單元(簡稱TPU)等定制化內(nèi)部芯片的出現(xiàn)是否會(huì)威脅到英偉達(dá)公司在深度學(xué)習(xí)訓(xùn)練領(lǐng)域中的主導(dǎo)地位?英特爾、AMD以及該領(lǐng)域中的其它初創(chuàng)企業(yè)能否迎頭趕上?帶著這些問題,我們馬上開始這一輪思考。
英偉達(dá)公司在人工智能領(lǐng)域是否已經(jīng)不可戰(zhàn)勝?
圖一:按各業(yè)務(wù)部門劃分,英偉達(dá)公司旗下幾乎所有業(yè)務(wù)方向均實(shí)現(xiàn)增長。
英偉達(dá)公司發(fā)布了哪些財(cái)報(bào)結(jié)論?
如您所見,英偉達(dá)公司本季度的表現(xiàn)可以說爆炸來形容。盡管拋售了約2%的股票,但其今年以來股價(jià)仍然上漲33%左右,并在過去兩年當(dāng)中上漲近7倍。一部分分析師指出,數(shù)據(jù)中心收入未能達(dá)到預(yù)期——實(shí)際為7.01億美元,略低于預(yù)期的7.03億美元,不過二者之間的差距基本可以忽略不計(jì)。我認(rèn)為一部分交易者只關(guān)注投資回報(bào),但也有一些交易者越來越擔(dān)心目前的競爭格局可能出現(xiàn)惡化。但就我個(gè)人而言,英偉達(dá)公司前四個(gè)季度的數(shù)據(jù)中心業(yè)務(wù)增速都在100%以上,因此對(duì)于一家可能在新的一年中營收超過20億美元的企業(yè)而言,71%地增長速率仍然相當(dāng)值得肯定。
同樣需要強(qiáng)調(diào)的是,前幾個(gè)季度英偉達(dá)公司還拿下了其它幾份重要訂單——包括為位于橡樹嶺國家實(shí)驗(yàn)室的Summit超級(jí)計(jì)算機(jī)提供2萬7600塊VoltaGPU以支持大規(guī)模高性能計(jì)算業(yè)務(wù)。我不知道橡樹嶺實(shí)驗(yàn)室的單塊VoltaGPU采購單價(jià),但如果按照5000美元到8000美元計(jì)算,則相當(dāng)于給英偉達(dá)帶來了1.3億到2億美元的收入。如果送去這部分?jǐn)?shù)字并考慮到英偉達(dá)業(yè)務(wù)的潛在優(yōu)勢,那么70%左右的增長率已經(jīng)相當(dāng)符合市場發(fā)展情況,因此具備一定的可持續(xù)性。換言之,如果英偉達(dá)公司要保持目前的發(fā)展速度,只需要繼續(xù)在其它競爭對(duì)手面前保持領(lǐng)先優(yōu)勢即可。在后文當(dāng)中,我們將進(jìn)一步介紹英偉達(dá)公司目前面臨的具體競爭壓力。
競爭壓力來自何方?
英偉達(dá)公司在人工智能領(lǐng)域的驚人增長已經(jīng)引起高度關(guān)注,亦吸引到眾多潛在競爭對(duì)手。其中不少企業(yè)宣稱其正在研發(fā)的芯片比英偉達(dá)產(chǎn)品速度更快,而且功耗更低。但實(shí)際情況是,在今年或明年當(dāng)中,只有少數(shù)幾家企業(yè)有可能實(shí)際發(fā)布相關(guān)芯片產(chǎn)品。事實(shí)證明,設(shè)計(jì)出一款比無數(shù)英偉達(dá)工程師精心打造的芯片好出十倍的解決方案可謂極為困難,而且需要投入大量時(shí)間與金錢。除了AMD公司的GPU之外,其它各廠商都認(rèn)為為神經(jīng)網(wǎng)絡(luò)處理專門設(shè)計(jì)芯片才是最具可行性的發(fā)展路線。下面,我們將對(duì)這一領(lǐng)域展開探索。
英特爾:
英特爾公司收購了Nervana(以及Mobileye、Movidius以及Altera)以構(gòu)建自己的加速產(chǎn)品組合。在2016年被英特爾收購之前,NervanaEngine的初代版本本來計(jì)劃于去年正式發(fā)布,但截至目前仍然沒有實(shí)際方案可供參考。相比之下,英偉達(dá)公司則決定重新對(duì)自家產(chǎn)品進(jìn)行設(shè)計(jì),而其引入VoltaGPU的TensorCores確實(shí)帶來了令世人震驚的效能——其性能比Pascal(英偉達(dá)的上一代GPU)高出6倍。從理論層面講,Nervana芯片的性能應(yīng)該是10倍于Pascal,所以可以想見TensorCores的出現(xiàn)可能會(huì)令英特爾決定放棄Nervana。畢竟如果V100Volta在關(guān)鍵人工智能運(yùn)算方面的性能真正達(dá)到Pascal的6倍,那么Nervana作出的“10倍”宣言在力度上將大打折扣——特別是考慮到Nervana的性能優(yōu)勢中還包含軟件調(diào)整。在另一方面,英偉達(dá)公司也在定期通過軟件優(yōu)化工作提高應(yīng)用性能。事實(shí)上,如果英特爾繼續(xù)推動(dòng)Nervana發(fā)展路線圖,那么其批量生產(chǎn)最早也要到2018年年末才能實(shí)現(xiàn)——這將正好趕上英偉達(dá)公布Volta的下一代升級(jí)方案。至于公布平臺(tái),我猜很可能是在達(dá)拉斯的SC2018大會(huì)上。
以上討論主要圍繞深層神經(jīng)網(wǎng)絡(luò)——簡稱DNN——的訓(xùn)練展開,而英偉達(dá)公司在正是在這一領(lǐng)域取得巨大成功。不過英特爾方面表示,通過將良好的軟件設(shè)計(jì)方案同標(biāo)準(zhǔn)英特爾至強(qiáng)數(shù)據(jù)中心處理器相結(jié)合,其同樣能夠在推斷工作方面實(shí)現(xiàn)出色的性能。芯片巨頭表示,其目前擁有超過80%的推斷處理市場份額——對(duì)這樣的結(jié)論,我當(dāng)然沒有質(zhì)疑的理由。在最近的一次宣傳活動(dòng)當(dāng)中,英特爾公司的醫(yī)療衛(wèi)生客戶也談到其在同一英特爾平臺(tái)之上運(yùn)行訓(xùn)練與推斷處理所帶來的優(yōu)勢。
除此之外,微軟也在利用英特爾AlteraFPGA方面取得了值得肯定的進(jìn)展——FPGA能夠不斷重新編程以滿足各種苛刻的應(yīng)用加速需求。需要強(qiáng)調(diào)的是,Xilinx的表現(xiàn)同樣出色,其利用AmazonAWSMarketPlace與F1加速實(shí)例成功簡化了FPGA應(yīng)用的入門門檻。不過出于某些數(shù)據(jù)類型與延遲需求的考量——例如無人機(jī)與自動(dòng)駕駛汽車場景,F(xiàn)PGA有時(shí)需要配備專門的低功耗加速器(英特爾收購Mobileye與Movidius正是出于這一考慮)。
谷歌TPU與其它內(nèi)部ASIC:
谷歌公司目前正在研發(fā)兩款面向人工智能的專用集成電路(簡稱ASIC):其中一種專門用于推斷,另一種則用于模型訓(xùn)練。谷歌將“TPU”以加速器的姿態(tài)推向市場,但實(shí)際上,TPU由四個(gè)相同的ASIC部件構(gòu)成,其中每個(gè)部件可提供約每秒45萬億次(TOPS)運(yùn)算能力。相比之下,英偉達(dá)Volta的單芯片處理能力高達(dá)每秒125萬億次。在我看來,這樣的市場定位令人困惑,且效果糟糕。換句話來說,根據(jù)該芯片的多項(xiàng)基準(zhǔn)測試結(jié)果表明,其僅適用于以下場景:1)您不需要在GoogleCloud之外運(yùn)行自己的人工智能模型;2)您樂于使用未經(jīng)優(yōu)化的TensorFlow模型;3)不打算或者不需要直接控制ASIC——這一點(diǎn)與大多數(shù)科學(xué)家的英偉達(dá)GPU使用方式恰恰相反。坦率地講,經(jīng)過三重篩選,其只剩下極為有限的利基市場可供發(fā)展。更重要的是,這與業(yè)界的主流猜想同樣存在沖突——人們普遍認(rèn)為谷歌公司會(huì)隨著時(shí)間推移而將其大部分內(nèi)部GPU工作負(fù)載轉(zhuǎn)移至TPU之上。
谷歌公司最近宣布其將推出下一代TPU3.0,而通過目前有限的細(xì)節(jié)與令人難以理解的性能結(jié)論,我們很難弄清該公司到底指的是更大的“pod”還是單一TPU芯片性能。在我看來,TPU3.0的主要變化在于推出令人印象深刻的系統(tǒng)重新設(shè)計(jì)方案,且水冷機(jī)制的引入將能夠進(jìn)一步提升計(jì)算密度。但請(qǐng)注意,TPU2.0仍然只幫助于單一部件,且直到2018年年末才會(huì)迎來“pod”集群支持能力。此外,其目前尚處于beta測試階段,且距離真正發(fā)布還有一整年時(shí)間。這意味著我們不太可能在短時(shí)間內(nèi)看到TPU3.0被正式投入生產(chǎn)環(huán)境。
斯坦福大學(xué)最近發(fā)布的基準(zhǔn)測試方案證明,沒有哪一種解決方案能夠在AI工作負(fù)載領(lǐng)域占據(jù)主導(dǎo)地位——決定實(shí)際性能的主要是您的實(shí)際負(fù)載內(nèi)容。對(duì)于云計(jì)算而言,GPU可能是更好的選擇,因?yàn)樵瓶蛻舻氖褂媚J揭恢碧幱诓粩嘧兓?,且需要各種各樣的模型并配合不同的軟件框架。出于這個(gè)原因,我預(yù)計(jì)谷歌公司將在可預(yù)見的未來繼續(xù)提供英偉達(dá)GPU類實(shí)例,否則其將面臨被AmazonAWS以及微軟Azure全面壓制的風(fēng)險(xiǎn)。
至于其它廠商,例如Facebook與Amazon,據(jù)稱其也在走上同樣的道路。但我繼續(xù)對(duì)此抱持懷疑態(tài)度——我不是說這一切不會(huì)發(fā)生,只是可能不會(huì)很快發(fā)生。
AMD:
盡管AMD公司在籌備其軟件堆棧以對(duì)抗英偉達(dá)機(jī)器學(xué)習(xí)工作負(fù)載方面表現(xiàn)得不錯(cuò),但其現(xiàn)有芯片(Vega)在峰值性能方面仍比英偉達(dá)的Volta落后一個(gè)世代(每秒25萬億次對(duì)Volta的每秒125萬億次)。我懷疑AMD公司可能會(huì)在今年晚些時(shí)候追及Volta,或者還會(huì)使用經(jīng)過重新設(shè)計(jì)的7納米GPU部件。盡管如此,AMD方面仍然需要努力開發(fā)市場及生態(tài)系統(tǒng),從而真正與英偉達(dá)展開競爭。芯片速度確實(shí)很重要,但還不足以確保成功。
初創(chuàng)企業(yè):
著眼于全球范圍內(nèi),目前至少有十幾家初創(chuàng)企業(yè)有計(jì)劃在機(jī)器學(xué)習(xí)領(lǐng)域一展身手,其中一部分甚至已經(jīng)準(zhǔn)備好推出自己的芯片。中國的寒武紀(jì)科技看起來資金充足,且擁有中國政府的強(qiáng)有力支持。中國政府已經(jīng)無法忍受人工智能芯片的全部利潤皆被美國技術(shù)企業(yè)占有的現(xiàn)狀。寒武紀(jì)科技公司目前僅著眼于部分工作,且尚未涉及深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練領(lǐng)域。與其它初創(chuàng)企業(yè)類似,寒武紀(jì)科技公司專注于神經(jīng)網(wǎng)絡(luò)的處理——而非構(gòu)建。
來自硅谷的WaveComputing公司似乎有意打造規(guī)模最大的模型訓(xùn)練芯片。Wave公司采用了一種名為“數(shù)據(jù)流架構(gòu)(DataFlowArchitecture)”的新型設(shè)計(jì),號(hào)稱能夠消除通過PCIe與CPU對(duì)接的傳統(tǒng)加速器的性能瓶頸。Wave公司的方案將把CPU排除在外;數(shù)據(jù)流處理器將直接負(fù)責(zé)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與處理。與谷歌TPU不同,Wave將支持用戶利用微軟CNTK、AmazonMXNet以及TensorFlow等軟件實(shí)現(xiàn)深度學(xué)習(xí)。根據(jù)該公司的公開表態(tài),我預(yù)計(jì)相關(guān)系統(tǒng)將于2018年下半年發(fā)布。需要注意的是,這里我說的是“系統(tǒng)”,而不僅僅是芯片——Wave公司打算為云端及內(nèi)部環(huán)境的企業(yè)AI方案構(gòu)建定制化平臺(tái)與設(shè)備方案。
其它知名廠商還包括尚處于隱身階段的Cerebras、GraphCore以及Croq等,其已經(jīng)短信到大量風(fēng)險(xiǎn)投資以構(gòu)建定制化AI加速器。我預(yù)計(jì)這些廠商不太可能在2019年之前發(fā)布工作系統(tǒng),因此我們需要持續(xù)關(guān)注其未來動(dòng)向。
值得注意的是,英國KisacoResearch公司將于今年9月18日與19日在圣何塞的計(jì)算機(jī)歷史博物館舉辦首屆AI硬件峰會(huì)。此次會(huì)議將首次專注于AI芯片與系統(tǒng)。盡管與其它議程長達(dá)一周左右的重量級(jí)會(huì)議相比其時(shí)間仍然較短,但我希望此次會(huì)議能夠幫助我們更好地了解各初創(chuàng)企業(yè)目前已經(jīng)走到了哪一步。
總結(jié)
考慮到這一切,讓我們重新回到對(duì)英偉達(dá)公司的預(yù)測。很明顯,該公司順利完成了從游戲到加密、再到AI的轉(zhuǎn)型歷程,而且并沒有遭遇過任何重大障礙。除了公司卓越的CEO黃仁勛及其令人敬畏的芯片、軟件與平臺(tái)方案之外,英偉達(dá)還特別喜歡與狂熱開發(fā)者及云服務(wù)用戶群體接洽。因此即使價(jià)格相當(dāng)高昂,英偉達(dá)的方案仍然得到了全世界受眾的熱烈追捧。
英偉達(dá)公司CEO黃仁勛以務(wù)實(shí)的管理風(fēng)格與極具創(chuàng)新性的愿景設(shè)置領(lǐng)導(dǎo)著這家巨頭企業(yè)。
坦率地講,我認(rèn)為目前英偉達(dá)公司面臨的最大威脅可能來自谷歌TPU——當(dāng)然,谷歌的內(nèi)部消費(fèi)級(jí)人工智能訓(xùn)練能力在短期內(nèi)仍然比較有限。在可預(yù)見的未來,谷歌公司可能會(huì)繼續(xù)購買并利用大量GPU以處理不太適合TPU的工作負(fù)載,例如用于語言處理的遞歸神經(jīng)網(wǎng)絡(luò)。我相信對(duì)于不打算利用公有云進(jìn)行人工智能開發(fā)及部署、也不希望自行構(gòu)建GPU基礎(chǔ)設(shè)施的企業(yè)用戶而言,Wave應(yīng)該是個(gè)不錯(cuò)的選擇。最后,如果英特爾公司能夠通過Nervana殺入這一市場,并愿意全力投入以支持其發(fā)展,那么芯片巨頭有可能在2019年年內(nèi)構(gòu)成新的威脅。但這種影響僅僅存在于利潤空間層面;要真正建立起具備可行性的生態(tài)系統(tǒng),英特爾至少需要3年的時(shí)間外加堅(jiān)實(shí)的發(fā)展路線圖。另外需要考慮的一大重要因素是,隨著英偉達(dá)公司7納米制程技術(shù)的發(fā)展,其將能夠進(jìn)一步壓縮AI處理芯片的面積。因此,專注于人工智能應(yīng)用方向的芯片占比可能有所增加,這意味著其在一定程度上也可作為圖形ASIC使用。
在我看來,英偉達(dá)并不屬于一家GPU廠商——相反,這是一家對(duì)業(yè)務(wù)增長抱有熱情與渴望的平臺(tái)供應(yīng)商。請(qǐng)記住,目前的技術(shù)行業(yè)當(dāng)中還沒有哪家廠商能夠在AI硬件與軟件專業(yè)知識(shí)的深度與廣度方面與英偉達(dá)相抗衡。其已經(jīng)通過深度學(xué)習(xí)加速器(簡稱DLA)證明了這一點(diǎn)。如果GPU業(yè)務(wù)受到威脅,那么英偉達(dá)公司完全可以快速實(shí)現(xiàn)車工。在推斷處理方面,英偉達(dá)公司專注于為數(shù)據(jù)中心工作負(fù)載以及用于自動(dòng)加速汽車等應(yīng)用的視覺導(dǎo)航系統(tǒng)提供助力。雖然汽車市場在未來幾年當(dāng)中還不會(huì)真正迎來變革,但我完全相信這場革命終將到來——具體時(shí)間點(diǎn)也許會(huì)是AI訓(xùn)練市場開始放緩,或者競爭水平進(jìn)一步升級(jí)的時(shí)刻。