【蘋果、英特爾、英偉達(dá)三大巨頭決戰(zhàn)AI芯片之巔,英特爾又如何進(jìn)一步加碼芯片事業(yè)?】近日,在有著103年歷史的舊金山藝術(shù)宮中,英特爾的新晉科技大會(huì)——人工智能開(kāi)發(fā)者大會(huì)(簡(jiǎn)稱“AIDC”)如期而至。這一次,英特爾聚焦于拓寬人工智能生態(tài)。
在羅馬式建筑和科技感的AI場(chǎng)景間之間,英特爾的AI掌舵者NaveenRao侃侃而談?dòng)⑻貭柕娜斯ぶ悄苘浻布M合,而最重磅的信息莫過(guò)于Nervana神經(jīng)網(wǎng)絡(luò)芯片的發(fā)布預(yù)告,按照規(guī)劃,英特爾最新的AI芯片NervanaNNPL-1000,將在2019年正式推向市場(chǎng),這也是英特爾第一個(gè)商用神經(jīng)網(wǎng)絡(luò)處理器產(chǎn)品。
兩年前,NaveenRao還是深度學(xué)習(xí)初創(chuàng)公司NervanaSystems的首席執(zhí)行官兼聯(lián)合創(chuàng)始人。在公司被英特爾收購(gòu)后,Nervana成為了英特爾人工智能的核心戰(zhàn)艦,NervanaNNP系列也應(yīng)運(yùn)而生,NaveenRao則被任命為人工智能產(chǎn)品事業(yè)部的總負(fù)責(zé)人。
英特爾人工智能產(chǎn)品事業(yè)部副總裁、Nervana團(tuán)隊(duì)成員CareyKloss在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者專訪時(shí)談道:“我們創(chuàng)業(yè)初期就開(kāi)始研發(fā)LakeCrest(NervanaNNP系列初代芯片代號(hào))。當(dāng)時(shí)我們整個(gè)團(tuán)隊(duì)大概45人,正在構(gòu)建一個(gè)最大的Die(硅芯片),我們開(kāi)發(fā)了Neon(深度學(xué)習(xí)軟件),還構(gòu)建了云棧,這些都是小團(tuán)隊(duì)所完成的。但是這也是挑戰(zhàn)所在,小團(tuán)隊(duì)成長(zhǎng)會(huì)有陣痛,我們花了很長(zhǎng)時(shí)間才把第一批產(chǎn)品拿出來(lái),Nervana在2014年成立,直到去年芯片才真正問(wèn)世。”
不過(guò),加入英特爾后,Nervana可以使用英特爾的各類資源,“當(dāng)然,調(diào)用資源并不是一件容易的事情,但是英特爾在產(chǎn)品的市場(chǎng)化方面擁有豐富的經(jīng)驗(yàn)。同時(shí),英特爾有迄今為止我見(jiàn)過(guò)的最佳的后硅培養(yǎng)(post-siliconbring-up)和架構(gòu)分析?!盋areyKloss告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,“出品芯片方面,我們有數(shù)百個(gè)系統(tǒng)同時(shí)運(yùn)行,Nervana的員工和6個(gè)月前剛加入的成員也都為了新品夜以繼日地協(xié)同工作?!痹谒磥?lái),Nervana現(xiàn)在處于合理的節(jié)奏中,已經(jīng)具備了明年取得成功的所有要素。
除了Nervana,英特爾收購(gòu)的人工智能旗艦企業(yè)還包括專注視覺(jué)處理的Movidius、FPGA(現(xiàn)場(chǎng)可編程門陣列)巨頭Altera、智能駕駛相關(guān)的Mobileye等。事實(shí)上,從2011年開(kāi)始,英特爾就開(kāi)始不斷地投資人工智能相關(guān)的公司,其中也包括了中國(guó)的寒武紀(jì)、地平線。
與此同時(shí),英特爾的競(jìng)爭(zhēng)對(duì)手也在日益壯大。英偉達(dá)的GPU在人工智能領(lǐng)域高歌猛進(jìn);谷歌前不久發(fā)布了第三代AI芯片TPU,該芯片針對(duì)谷歌的深度學(xué)習(xí)架構(gòu)TensorFlow進(jìn)行了優(yōu)化,并且谷歌對(duì)開(kāi)發(fā)者提供了TPU等底層服務(wù);去年,百度聯(lián)合ARM、紫光展銳和漢楓電子發(fā)布DuerOS智慧芯片,主要提供語(yǔ)音交互解決方案;Facebook和阿里巴巴也紛紛進(jìn)軍芯片領(lǐng)域,其中,阿里巴巴達(dá)摩院正在研發(fā)名為Ali-NPU的神經(jīng)網(wǎng)絡(luò)芯片,主要用于圖像、視頻識(shí)別以及云計(jì)算等場(chǎng)景。
在這場(chǎng)人工智能芯片的“遭遇戰(zhàn)”中,英特爾又將如何應(yīng)對(duì)?
三大派系爭(zhēng)霸
從整體來(lái)看,目前全球人工智能的格局尚未明朗,屬于各自做技術(shù)探索的局部戰(zhàn),尚未進(jìn)入群雄逐鹿的總體戰(zhàn)。人工智能是一個(gè)籠統(tǒng)的概念,具體的應(yīng)用場(chǎng)景差異頗大,各家公司側(cè)重點(diǎn)有所不同,若根據(jù)技術(shù)和業(yè)務(wù)流派進(jìn)行分類,可以將全球公司分為三個(gè)派系。
其一是系統(tǒng)應(yīng)用派,最典型的代表是谷歌和Facebook。他們不僅開(kāi)發(fā)人工智能的系統(tǒng)級(jí)框架,比如谷歌出名的人工智能框架Tensorflow、Facebook的Pytorch,而且還大規(guī)模地投入應(yīng)用。例如,谷歌斥重金研發(fā)自動(dòng)駕駛,推出翻譯等2C業(yè)務(wù)。而Facebook也將人工智能技術(shù)廣泛應(yīng)用在社交網(wǎng)絡(luò)中的圖像處理,自然語(yǔ)言處理等諸多領(lǐng)域。
第二類是芯片派,目前主要是提供算力支持,最大的玩家就是英特爾和英偉達(dá)。英偉達(dá)的GPU抓住了計(jì)算設(shè)備需求的關(guān)鍵時(shí)機(jī),在圖形渲染、人工智能和區(qū)塊鏈領(lǐng)域的計(jì)算表現(xiàn)十分突出,在這些業(yè)務(wù)方面也給英特爾帶來(lái)壓力。同時(shí)英偉達(dá)似乎和英特爾的“IntelInside”不同,它更希望成為真正的算力平臺(tái),并且成功推出了自己的CUDA平臺(tái)。
就在5月30日,英偉達(dá)發(fā)布了全球首個(gè)融合人工智能和高性能計(jì)算的計(jì)算平臺(tái)——HGX-2,這也是目前最大的GPU——DGX-2背后的計(jì)算平臺(tái)。
作為傳統(tǒng)算力領(lǐng)域的老大英特爾自然不甘示弱,50年的企業(yè)頗有老驥伏櫪的意味,近年來(lái)在人工智能領(lǐng)域頻頻發(fā)起重磅并購(gòu):2015年167億美元收購(gòu)“現(xiàn)場(chǎng)可編程門陣列巨頭”(FieldProgrammableGateArray,F(xiàn)PGA)Altera,為未來(lái)算力的發(fā)展趨勢(shì)奠定基礎(chǔ),F(xiàn)PGA在云計(jì)算、物聯(lián)網(wǎng)、邊緣計(jì)算等方面有很大的潛力;2016年英特爾收購(gòu)Nervana,計(jì)劃用這家公司在深度學(xué)習(xí)方面的能力來(lái)對(duì)抗GPU;同年還收購(gòu)了視覺(jué)處理芯片初創(chuàng)公司Movidius;2017年英特爾以153億美元收購(gòu)以色列協(xié)助駕駛公司Mobileye,旨在進(jìn)軍自動(dòng)駕駛領(lǐng)域。
在系統(tǒng)應(yīng)用派和芯片派之外,第三類是技術(shù)應(yīng)用派,剩下的大部分公司都屬于這一類型。雖然不同的公司都聲稱自己在深度學(xué)習(xí)、人工智能領(lǐng)域有著深厚甚至獨(dú)特的技術(shù)積累,但實(shí)際上大多是基于系統(tǒng)應(yīng)用派和芯片派的技術(shù)平臺(tái)。只不過(guò)技術(shù)應(yīng)用派更多的面向C端用戶,包括自動(dòng)駕駛、圖像識(shí)別、企業(yè)級(jí)應(yīng)用等??陀^上說(shuō),技術(shù)應(yīng)用派屬于“君子善假于物也”。
從目前的競(jìng)爭(zhēng)格局上來(lái)看,系統(tǒng)應(yīng)用派已經(jīng)逐漸占據(jù)了整體優(yōu)勢(shì),在人工智能領(lǐng)域具備了最核心的競(jìng)爭(zhēng)力。在傳統(tǒng)的電腦和手機(jī)時(shí)代,系統(tǒng)和芯片更多是合作關(guān)系,芯片甚至更加占據(jù)主導(dǎo)地位。具體來(lái)看,比如在電腦市場(chǎng)上,英特爾在算力領(lǐng)域完全制霸,橫跨PC和蘋果的MAC機(jī)。而系統(tǒng)方面,Windows和iOS各有千秋,無(wú)法代替對(duì)方,但他們共同的英特爾卻無(wú)法代替。到了手機(jī)時(shí)代,雖然算力的主角從英特爾變?yōu)榱烁咄?,但是芯片依然處于核心的地位,其重要性和操作系統(tǒng)平分秋色。
而最近1-2年,形勢(shì)變化很快,蘋果放出要自己研發(fā)和生產(chǎn)MAC芯片的口風(fēng),英特爾股價(jià)一度聞風(fēng)下跌。在人工智能領(lǐng)域,這樣的趨勢(shì)更加明顯,由于計(jì)算場(chǎng)景的需求差異化極大,谷歌根據(jù)自己的需要研發(fā)成熟的芯片變得必要,技術(shù)上也更可行。英特爾如果要為不同的場(chǎng)景定制芯片,意味著英特爾將全面轉(zhuǎn)入2B領(lǐng)域,和之前的2B2C模式相比,純2B的業(yè)務(wù)顯然會(huì)更像乙方,業(yè)務(wù)線的復(fù)雜度會(huì)急劇增長(zhǎng)。而歷史上來(lái)看,一家公司從2C轉(zhuǎn)向2B總體來(lái)看往往都是因?yàn)槭チ嗽谛袠I(yè)中的核心統(tǒng)治地位而不得不退而求次。
押寶NervanaNNP
那么,在激烈競(jìng)爭(zhēng)中,英特爾又如何進(jìn)一步加碼芯片事業(yè)?
NaveenRao加入了英特爾后,成為英特爾副總裁、AI事業(yè)部(AIPG)負(fù)責(zé)人,主導(dǎo)推出英特爾神經(jīng)網(wǎng)絡(luò)處理器(NervanaNNP)系列芯片。這次在AIDC大會(huì)上提出為開(kāi)發(fā)者提供軟件工具、硬件、生態(tài)。在業(yè)內(nèi)看來(lái),以英特爾的技術(shù)實(shí)力,軟件工具和硬件并不成問(wèn)題,但是生態(tài)卻有待商榷。在PC時(shí)代,生態(tài)的核心是芯片,因此圍繞芯片構(gòu)建生態(tài)就可以令英特爾固若金湯,但是在人工智能時(shí)代,人工智能系統(tǒng)才是生態(tài)的核心,提供算力的芯片是生態(tài)的一部分,CPU可以提供算力,GPU也可以提供,英特爾可以生產(chǎn),英偉達(dá)也可以生產(chǎn),甚至谷歌、蘋果自己也可以生產(chǎn)。
目前在數(shù)據(jù)科學(xué)和深度學(xué)習(xí)計(jì)算領(lǐng)域,英特爾的芯片布局主要有Xeon(至強(qiáng))芯片系列、Movidius的視覺(jué)芯片VPU、NervanaNNP系列、以及FPGA(現(xiàn)場(chǎng)可編程門陣列)。這幾條產(chǎn)品線分別對(duì)應(yīng)幾個(gè)不同的細(xì)分應(yīng)用場(chǎng)景。
NervanaNNP系列則是神經(jīng)網(wǎng)絡(luò)處理器,在深度學(xué)習(xí)的訓(xùn)練和推斷階段中,NervanaNNP主要針對(duì)訓(xùn)練階段的計(jì)算,按照英特爾的計(jì)劃,到2020年要將深度學(xué)習(xí)訓(xùn)練(DeepLearning,簡(jiǎn)稱“DL”)的效果提高100倍。這款神經(jīng)網(wǎng)絡(luò)處理器由英特爾和Facebook一起合作設(shè)計(jì),可以預(yù)測(cè)該芯片很大程度上應(yīng)該會(huì)對(duì)Facebook的機(jī)器學(xué)習(xí)框架Pytorch有很好的支持,畢竟Facebook的Pytorch的野心肯定是要和谷歌的Tensorflow一決高下。不過(guò)最新款芯片2019年才會(huì)正式推出商用,屆時(shí)深度學(xué)習(xí)的格局變化如何無(wú)法預(yù)料。
NaveenRao在其博客中寫道:“我們正在開(kāi)發(fā)第一個(gè)商用神經(jīng)網(wǎng)絡(luò)處理器產(chǎn)品英特爾NervanaNNP-L1000(代號(hào)SpringCrest),計(jì)劃在2019年發(fā)布。與第一代LakeCrest產(chǎn)品相比,我們預(yù)計(jì)英特爾NervanaNNP-L1000將實(shí)現(xiàn)3-4倍的訓(xùn)練性能。英特爾NervanaNNP-L1000還將支持bfloat16,這是業(yè)內(nèi)廣泛采用的針對(duì)神經(jīng)網(wǎng)絡(luò)的一種數(shù)值型數(shù)據(jù)格式。未來(lái),英特爾將在人工智能產(chǎn)品線上擴(kuò)大對(duì)bfloat16的支持,包括英特爾至強(qiáng)處理器和英特爾FPGA。”
事實(shí)上,SpringCrest在2018年底推出的傳言早已有之,但是目前看來(lái),官方公布的2019年這一時(shí)間點(diǎn)略有延遲。對(duì)此,CareyKloss向記者解釋道:“進(jìn)入更現(xiàn)代化的制程節(jié)點(diǎn),我們集成了更多的Die(硅芯片),可以獲得更快的處理速度。但是需要一定的時(shí)間去制造硅片,也需要時(shí)間把硅片變成新的神經(jīng)網(wǎng)絡(luò)處理器,這是延遲的原因。”
對(duì)于兩代芯片的區(qū)別,他分析稱:“LakeCrest作為第一代處理器,在GEMM(矩陣運(yùn)算)和卷積神經(jīng)上都實(shí)現(xiàn)了非常好的計(jì)算利用率。這不僅僅是指96%吞吐量的利用率,而是在沒(méi)有充分定制化的情況下,我們也取得了大多數(shù)情況下實(shí)現(xiàn)GEMM高于80%的計(jì)算利用率。當(dāng)我們開(kāi)發(fā)下一代芯片時(shí),如果我們能夠保持高計(jì)算利用率,新的產(chǎn)品在性能上有3到4倍的性能提升?!?/p>
談及競(jìng)爭(zhēng),CareyKloss表示:“我不知道我們競(jìng)爭(zhēng)對(duì)手的路線圖是什么,但我們的反應(yīng)速度相對(duì)較快,所以我認(rèn)為我們不會(huì)在神經(jīng)網(wǎng)絡(luò)處理上處于劣勢(shì)。比如bfloat16已經(jīng)有一段時(shí)間了,它最近變得更受歡迎,不少客戶提出支持bfloat16的要求,我們也逐步轉(zhuǎn)向支持bfloat16?!倍鴮?duì)比谷歌的TPU來(lái)看,他認(rèn)為TPU二代類似于LakeCrest,TPU三代類似于SpringCrest。
四面出擊
除了備受關(guān)注的NervanaNNP,英特爾的Xeon芯片主要面向服務(wù)器和大型計(jì)算設(shè)備,比如我國(guó)超級(jí)計(jì)算機(jī)天河一號(hào)和二號(hào)就采用了IntelXeon六核處理器。
在視覺(jué)芯片方面,英特爾的業(yè)務(wù)量增長(zhǎng)迅速。MovidiusVPU芯片早就面向在汽車、無(wú)人機(jī)等新興的硬件市場(chǎng),比如大疆無(wú)人機(jī)、特斯拉,以及GoogleClips攝像頭中都采用了Movidius的視覺(jué)芯片。
Movidius的市場(chǎng)負(fù)責(zé)人GaryBrown告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者:“在Movidius,我們研發(fā)的芯片被稱作視覺(jué)處理單元VPU。VPU是一種兼具計(jì)算機(jī)視覺(jué)和智能攝像頭處理器的芯片。所以我們的芯片所做的處理大概有三類:ISP處理,也就是圖像信號(hào)處理,基于攝像頭捕捉技術(shù)的處理,以及計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)?!?/p>
他舉例道,具體的使用場(chǎng)景包括VR產(chǎn)品和機(jī)器人技術(shù)、智能家居、工業(yè)攝像頭、AI攝像頭,還有監(jiān)控和安保。其中,“監(jiān)控和安保是一個(gè)巨大的市場(chǎng),尤其在中國(guó),監(jiān)控和安保攝像頭的市場(chǎng)特別大,有一些大公司在研發(fā)監(jiān)控?cái)z像頭,例如??低暫痛笕A。”
GaryBrown還提到,智能家居領(lǐng)域目前正在迅速發(fā)展,雖然市場(chǎng)很小,但是發(fā)展神速。“有很多公司在研發(fā)智能裝置,如智能家庭安防、個(gè)人家庭助手、智能門鈴,以及公寓和家庭的訪問(wèn)控制。但是在家居領(lǐng)域,要做到低成本、低能耗、電池壽命長(zhǎng),以及非常精準(zhǔn)是非常有挑戰(zhàn)性的。因?yàn)楸热缡彝獾臉?shù)蔭在移動(dòng),就有可能觸發(fā)了防盜警報(bào),因此非常低的誤報(bào)率是非常重要的,要有良好的準(zhǔn)確性。”
而公司的挑戰(zhàn)之一就是如何繼續(xù)創(chuàng)造高性能的芯片,“我們有一些策略,比如,用一個(gè)前端算法降低功耗,這樣我們就能關(guān)閉大部分芯片,只運(yùn)作小部分最優(yōu)化的面部檢測(cè)功能。當(dāng)一張臉出現(xiàn)時(shí),其他芯片將被啟動(dòng)。這樣就能一直保持面部監(jiān)控系統(tǒng)開(kāi)啟。我們還有很多演算節(jié)能技術(shù),使家用智能攝像頭續(xù)航時(shí)間達(dá)到大致6個(gè)月?!盙aryBrown解釋道。
此外,F(xiàn)PGA這條線則由Altera執(zhí)掌局面。隨著5G浪潮的到來(lái),IoT物聯(lián)網(wǎng)的數(shù)據(jù)分析及計(jì)算需求會(huì)暴增,物聯(lián)網(wǎng)的接入節(jié)點(diǎn)至少是數(shù)百億級(jí)的規(guī)模,比手機(jī)規(guī)模要高出1-2個(gè)數(shù)量級(jí)。物聯(lián)網(wǎng)的典型需求是需要靈活使用算法的變化,這是FPGA的強(qiáng)項(xiàng),F(xiàn)PGA可以通過(guò)自身結(jié)構(gòu)的改變來(lái)適應(yīng)定制化計(jì)算場(chǎng)景的需求,這也使得英特爾在未來(lái)為更多不同類型的設(shè)備提供高效提供芯片變成可能。從167億美元的收購(gòu)金額就可以看出,英特爾買的顯然不只是眼前的價(jià)值。
速攻企業(yè)級(jí)場(chǎng)景
英特爾近期的一項(xiàng)調(diào)查顯示,在美國(guó)企業(yè)客戶中,50%以上都正在轉(zhuǎn)向采用基于英特爾Xeon處理器的現(xiàn)有的云解決方案來(lái)滿足其對(duì)人工智能的初步需求。而多位英特爾高管在接受采訪時(shí)都向記者表示,沒(méi)有一種解決方案適用于所有的人工智能場(chǎng)景,英特爾會(huì)根據(jù)客戶需求對(duì)技術(shù)和業(yè)務(wù)進(jìn)行搭配。比如,英特爾會(huì)將Xeon和FPGA、或者Xeon和Movidius配置在一起,從而實(shí)現(xiàn)更高性能的人工智能功能。
對(duì)于英特爾而言,這些強(qiáng)化的人工智能功能將被廣泛地應(yīng)用于企業(yè)級(jí)場(chǎng)景。NaveenRao就表示:“在加速向人工智能驅(qū)動(dòng)的未來(lái)計(jì)算過(guò)渡之時(shí),我們需要提供全面的企業(yè)級(jí)解決方案。這意味著我們的解決方案要提供最廣泛的計(jì)算能力,并且能夠支持從毫瓦級(jí)到千瓦級(jí)的多種架構(gòu)。”
CareyKloss進(jìn)一步向21世紀(jì)經(jīng)濟(jì)報(bào)道記者解釋人工智能芯片的應(yīng)用場(chǎng)景:“SpringCrest可以說(shuō)是最高等級(jí)的Nervana神經(jīng)元處理器架構(gòu)。因此它的客戶就包括超大規(guī)模計(jì)算中心、已經(jīng)擁有相當(dāng)強(qiáng)大的數(shù)據(jù)科學(xué)工作的大型企業(yè)、政府等等。如果你需求的是低延且小模型,Xeon就能幫助到你,它可以把數(shù)據(jù)從云到端打通?!?/p>
具體來(lái)看,英特爾也在醫(yī)療、無(wú)人駕駛、新零售、物聯(lián)網(wǎng)等場(chǎng)景上做了探索。比如在醫(yī)療方面,據(jù)介紹,英特爾正在與諾華(Novartis)合作,使用深度神經(jīng)網(wǎng)絡(luò)來(lái)加速高內(nèi)涵篩選——這是早期藥品研發(fā)的關(guān)鍵元素。雙方的合作把訓(xùn)練圖片分析模型的時(shí)間從11個(gè)小時(shí)縮短到了31分鐘——效率提高了20多倍。
在無(wú)人商店方面,英特爾為京東無(wú)人便利店提供“計(jì)算大腦”,目前已在多個(gè)智能門店(中石化易捷便利店、京東之家)以及智能售賣機(jī)項(xiàng)目中部署使用。在算法上,京東方面表示,無(wú)人商店用到的機(jī)器學(xué)習(xí)算法主要集中在知人、知貨、知場(chǎng)3個(gè)方向,由于涉及線上線下數(shù)據(jù)打通,將視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)等,需要用到現(xiàn)在比較流行的機(jī)器視覺(jué)領(lǐng)域CNN(卷積神經(jīng)網(wǎng)絡(luò))算法,智慧供應(yīng)鏈方面用到的傳統(tǒng)機(jī)器學(xué)習(xí)算法,如SVM、統(tǒng)計(jì)學(xué)的線形回歸,邏輯回歸等。在網(wǎng)絡(luò)條件比較好的情況下,多數(shù)視頻數(shù)據(jù)可以使用較大模型在云端完成。在網(wǎng)絡(luò)不佳的情況下,通過(guò)端計(jì)算比如移動(dòng)端,邊緣計(jì)算使用小網(wǎng)絡(luò)完成。而使用的硬件包括Intel的邊緣服務(wù)器等。
盡管英特爾外遇強(qiáng)敵,轉(zhuǎn)型、擴(kuò)張的步伐十分堅(jiān)定。僅從研發(fā)數(shù)值來(lái)看,根據(jù)ICInsights的統(tǒng)計(jì)數(shù)據(jù),2017年排名前10位的半導(dǎo)體廠商研發(fā)總支出為359億美元,英特爾位列第一。報(bào)告顯示,2017年英特爾的研發(fā)支出為131億美元,占集團(tuán)總支出的36%,約為英特爾2017年銷售額的五分之一。
隨著各家的巨額投入,AI芯片的戰(zhàn)役還將愈演愈烈。