【中國(guó)傳動(dòng)網(wǎng) 技術(shù)前沿】 專業(yè)硬件平臺(tái)是每一等級(jí)人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的未來(lái),也是我們今后生活的云到邊緣世界中每一項(xiàng)任務(wù)的未來(lái)。
人工智能的快速發(fā)展促進(jìn)了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等新一類硬件加速器的爆炸式發(fā)展。
有人將其稱為“寒武紀(jì)爆炸”,恰當(dāng)?shù)乇扔髁水?dāng)前狂熱的創(chuàng)新。寒武紀(jì)指的是大約5億年前的一段時(shí)期,基本上每一種生物體都首次出現(xiàn)了“身體結(jié)構(gòu)”。從那時(shí)起,這些生物——包括我們自己在內(nèi),開(kāi)始四處遷徙,從而徹底改變了地球上的生態(tài)。
創(chuàng)新的人工智能硬件加速器架構(gòu)的范圍在不斷擴(kuò)展。雖然你可能認(rèn)為圖形處理單元(GPU)是主要的人工智能硬件架構(gòu),但這遠(yuǎn)非事實(shí)。在過(guò)去幾年中,初創(chuàng)公司和成熟的芯片供應(yīng)商都推出了令人印象深刻的新一代新硬件架構(gòu),適用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言處理和其他人工智能工作負(fù)載。
除了新一代GPU之外,在這些新的人工智能優(yōu)化芯片組架構(gòu)中,最主要的是神經(jīng)網(wǎng)絡(luò)處理單元(NNPU)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、專用集成電路(ASIC)和各種相關(guān)的方法,這些方法都被統(tǒng)稱為神經(jīng)突觸體系結(jié)構(gòu)。正如一些業(yè)界專家所指出的,今天的人工智能市場(chǎng)并沒(méi)有像英特爾的X86CPU(曾經(jīng)主宰了桌面計(jì)算領(lǐng)域)那樣只存在一種硬件架構(gòu)。這是因?yàn)檫@些新的人工智能加速器芯片架構(gòu)適應(yīng)了迅速發(fā)展的云到邊緣生態(tài)系統(tǒng)(如計(jì)算機(jī)視覺(jué))中的各類特殊用途。
人工智能加速器芯片的發(fā)展
要想了解人工智能加速器芯片的快速發(fā)展,最好是關(guān)注一下本文介紹的市場(chǎng)機(jī)遇和挑戰(zhàn)。
人工智能等級(jí)
要了解人工智能加速器是怎樣發(fā)展的,看一看邊緣,在那里,新的硬件平臺(tái)正在被優(yōu)化,以便讓移動(dòng)、嵌入式和物聯(lián)網(wǎng)(IoT)設(shè)備具有更大的自主性。除了智能手機(jī)嵌入式人工智能處理器的快速發(fā)展之外,在這方面最值得注意的是人工智能機(jī)器人創(chuàng)新,涉及到從自動(dòng)駕駛汽車(chē)到無(wú)人機(jī)、智能設(shè)備和工業(yè)物聯(lián)網(wǎng)的方方面面。
在這方面最值得注意的進(jìn)展之一是英偉達(dá)(Nvidia)進(jìn)一步增強(qiáng)了其JetsonXavierAI系列芯片的人工智能片上系統(tǒng)(SOC)。英偉達(dá)已經(jīng)發(fā)布了Isaac軟件開(kāi)發(fā)工具包,以幫助構(gòu)建運(yùn)行在其專用機(jī)器人硬件中的機(jī)器人算法。
反映了智能機(jī)器人的復(fù)雜性,JetsonXavier芯片由6個(gè)處理器單元組成,包括一個(gè)512核的NvidiaVolta張量?jī)?nèi)核GPU、一個(gè)8核的CarmelArm64CPU、一個(gè)雙核的Nvidia深度學(xué)習(xí)加速器,以及圖像、視覺(jué)和視頻處理器。這些使其能夠處理幾十種算法來(lái)幫助機(jī)器人自主的感知環(huán)境,有效地進(jìn)行響應(yīng),并與人類工程師一起安全地工作。
人工智能任務(wù)
人工智能加速器開(kāi)始滲透到分布式云到邊緣、高性能計(jì)算、超融合服務(wù)器和云存儲(chǔ)架構(gòu)的每一等級(jí)中。一股新的硬件創(chuàng)新浪潮正源源不斷地涌向所有這些領(lǐng)域,以支持更快速、高效和準(zhǔn)確的人工智能處理。
人工智能硬件創(chuàng)新正在走向市場(chǎng),以加速這些不同應(yīng)用環(huán)境中具體的數(shù)據(jù)驅(qū)動(dòng)任務(wù)。市場(chǎng)上無(wú)數(shù)的人工智能芯片組架構(gòu)反映了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言處理和其他人工智能工作負(fù)載的多樣性——從需要大量存儲(chǔ)的訓(xùn)練,到計(jì)算密集型推斷,而且涉及不同程度的設(shè)備自主性和人在環(huán)路交互性。
為能夠讓人工智能芯片組適用于如此眾多的工作負(fù)載,供應(yīng)商在其系列產(chǎn)品中甚至在特定的嵌入式人工智能部署中混合了各種各樣的技術(shù),例如驅(qū)動(dòng)智能機(jī)器人和移動(dòng)應(yīng)用的SOC。
作為一個(gè)例子,英特爾的XeonPhiCPU架構(gòu)已被用來(lái)加速人工智能任務(wù)。但英特爾認(rèn)識(shí)到,如果沒(méi)有專門(mén)的人工智能加速器芯片,它將無(wú)法與NvidiaVolta(在GPU中)以及大量生產(chǎn)NNPU和其他人工智能芯片的廠商相競(jìng)爭(zhēng)。因此,英特爾現(xiàn)在有一個(gè)產(chǎn)品部門(mén)正在開(kāi)發(fā)一款新GPU,并將在未來(lái)兩年發(fā)布該產(chǎn)品。
同時(shí),它繼續(xù)看好人工智能優(yōu)化芯片組的幾類架構(gòu):神經(jīng)網(wǎng)絡(luò)處理器(Nervana)、FPGA(Altera)、計(jì)算機(jī)視覺(jué)ASIC(Movidius)和自動(dòng)駕駛汽車(chē)ASIC(MobilEye)。它還計(jì)劃為解決下一代人工智能挑戰(zhàn)構(gòu)建自學(xué)習(xí)神經(jīng)形態(tài)和量子計(jì)算芯片。
人工智能的市場(chǎng)承受能力
每一人工智能加速硬件創(chuàng)新必須是可生存的,必須能夠滿足相關(guān)運(yùn)行和經(jīng)濟(jì)承受能力指標(biāo)。
在運(yùn)行指標(biāo)中,每一人工智能芯片組必須在外形封裝、能效、散熱和電磁輻射以及堅(jiān)固性方面符合相關(guān)標(biāo)準(zhǔn)。
在經(jīng)濟(jì)指標(biāo)中,它必須在性能和總體擁有成本方面具有競(jìng)爭(zhēng)力,以滿足其設(shè)計(jì)部署的等級(jí)和任務(wù)要求。比較行業(yè)基本標(biāo)準(zhǔn)將成為決定人工智能加速器技術(shù)是否具有在激烈競(jìng)爭(zhēng)的市場(chǎng)中生存下去的性價(jià)比指標(biāo)的關(guān)鍵因素。
在一個(gè)正在朝著工作負(fù)載優(yōu)化人工智能架構(gòu)發(fā)展的行業(yè)中,用戶將在每一等級(jí)中采用最快、最具可擴(kuò)展性、最具功效和成本最低的硬件、軟件和云平臺(tái)來(lái)運(yùn)行自己的人工智能任務(wù),包括開(kāi)發(fā)、訓(xùn)練、運(yùn)行和推斷等。
人工智能加速器ASIC的多樣性
人工智能加速器硬件架構(gòu)并非單一化。它們是如此的多樣化,發(fā)展的如此之快,以至于人們很難跟上這一市場(chǎng)不斷創(chuàng)新的步伐。
除了Nvidia和Intel-ASIC等核心人工智能芯片組制造商之外,平臺(tái)專用人工智能工作負(fù)載比比皆是。我們可以在最近的一些新聞中看到這種趨勢(shì):
●微軟正在為其HoloLens增強(qiáng)現(xiàn)實(shí)頭盔準(zhǔn)備一款人工智能芯片。
●谷歌有一款特殊的NNPU——張量處理單元,可用于谷歌云平臺(tái)上的人工智能應(yīng)用程序。
●據(jù)報(bào)道,亞馬遜正在為其Alexa家庭助手設(shè)計(jì)一款人工智能芯片。
●蘋(píng)果公司正在開(kāi)發(fā)一款人工智能處理器,用于Siri和FaceID。
●特斯拉正在為其自動(dòng)駕駛電動(dòng)汽車(chē)開(kāi)發(fā)一款人工智能處理器。
人工智能加速器基準(zhǔn)框架開(kāi)始出現(xiàn)
人工智能加速器市場(chǎng)中的跨供應(yīng)商合作伙伴關(guān)系變得越來(lái)越復(fù)雜和重疊。例如,可以看看中國(guó)科技巨頭百度是怎樣分別與英特爾和英偉達(dá)合作的。除了推出自己的NNPU芯片進(jìn)行自然語(yǔ)言處理、圖像識(shí)別和自主駕駛之外,百度還與英特爾合作,在其公共云中實(shí)現(xiàn)FPGA支持的人工智能工作負(fù)載加速,還有用于XeonCPU的人工智能框架,配有人工智能的自動(dòng)駕駛汽車(chē)平臺(tái),具有計(jì)算機(jī)視覺(jué)功能的零售相機(jī),并采用了英特爾的nGraph硬件無(wú)關(guān)深度神經(jīng)網(wǎng)絡(luò)編譯器。這些發(fā)布緊隨英偉達(dá)類似的公告,例如,將VoltaGPU引入到百度云計(jì)劃中,對(duì)百度Volta的PaddlePaddleAI開(kāi)發(fā)框架進(jìn)行調(diào)整,以及向中國(guó)消費(fèi)市場(chǎng)推出英偉達(dá)支持的人工智能等。
面對(duì)如此令人眼花繚亂的人工智能加速器硬件選擇和組合——無(wú)論是云還是在專門(mén)的SoC中,人們很難對(duì)其進(jìn)行梳理。如果沒(méi)有靈活的基準(zhǔn)測(cè)試框架,要想針對(duì)任何任務(wù)找出人工智能加速器硬件對(duì)總體性能的貢獻(xiàn)是非常棘手的。
幸運(yùn)的是,人工智能行業(yè)正在開(kāi)發(fā)開(kāi)放的、透明的、與供應(yīng)商無(wú)關(guān)的框架,以便在不同的工作負(fù)載中評(píng)估不同硬件/軟件堆棧的相對(duì)性能。
MLPerf
例如,MLPerf開(kāi)源基準(zhǔn)測(cè)試部門(mén)正在開(kāi)發(fā)一個(gè)標(biāo)準(zhǔn)套件,用于對(duì)機(jī)器學(xué)習(xí)軟件框架、硬件加速器和云平臺(tái)的性能進(jìn)行基準(zhǔn)測(cè)試。MLPerf可以在GitHub上使用,目前是測(cè)試版,為當(dāng)今人工智能部署中占主導(dǎo)地位的一些人工智能任務(wù)提供了參考實(shí)現(xiàn)。它涉及到對(duì)具體算法(例如,Resnet-50v1)采用具體數(shù)據(jù)集(例如ImageNet)執(zhí)行具體的人工智能任務(wù)(例如圖像分類)進(jìn)行基準(zhǔn)測(cè)試。核心基準(zhǔn)測(cè)試集中于特定的硬件/軟件部署,比如在Ubuntu16.04、NvidiaDocker和CPython2上運(yùn)行的圖像分類訓(xùn)練工作,這些平臺(tái)由16個(gè)CPU芯片、一個(gè)NvidiaP100VoltaGPU和600G的本地硬盤(pán)組成。
MLPerf框架非常靈活,因此可以想象基于GPU的圖像分類訓(xùn)練能夠針對(duì)在不同硬件加速器(例如最近宣布的百度昆侖FPGA)上運(yùn)行的相同任務(wù)進(jìn)行基準(zhǔn)測(cè)試——但是要在基本相同的軟件/硬件堆棧中進(jìn)行。
其他人工智能行業(yè)基準(zhǔn)測(cè)試方案還允許在可替代的人工智能加速器芯片上進(jìn)行比較性能評(píng)估,以及采用其他硬件和軟件組件在部署中使用相同的模型對(duì)相同的訓(xùn)練或者運(yùn)行數(shù)據(jù)來(lái)處理相同的任務(wù)。這些其他基準(zhǔn)測(cè)試方案包括DawnBench、ReQuest、會(huì)話處理性能委員會(huì)的人工智能工作組和CEAN2D2。它們都足夠靈活,可以應(yīng)用于任何部署等級(jí)中運(yùn)行的任何人工智能負(fù)載任務(wù),并且經(jīng)濟(jì)上可行。
EEMBC機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試套件
反映了人工智能工作負(fù)載向邊緣的移動(dòng),一些人工智能基準(zhǔn)測(cè)試方案完全集中于測(cè)量部署到這一等級(jí)的硬件/軟件堆棧的性能。例如,行業(yè)聯(lián)盟EEMBC最近開(kāi)始了一項(xiàng)新工作,定義一個(gè)用于機(jī)器學(xué)習(xí)的基準(zhǔn)測(cè)試套件,這些機(jī)器學(xué)習(xí)運(yùn)行在功率受限的邊緣設(shè)備的優(yōu)化芯片組中。由英特爾主持,EEMBC的機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試套件部門(mén)將使用來(lái)自虛擬助手、智能手機(jī)、物聯(lián)網(wǎng)設(shè)備、智能揚(yáng)聲器、物聯(lián)網(wǎng)網(wǎng)關(guān)和其他嵌入式/邊緣系統(tǒng)的實(shí)際機(jī)器學(xué)習(xí)工作負(fù)載,以便確定用于加速機(jī)器學(xué)習(xí)推斷工作的處理器內(nèi)核的性能和功效。
EMEBC機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試將測(cè)量低、中、高復(fù)雜度的推斷任務(wù)的推斷性能、神經(jīng)網(wǎng)絡(luò)加速時(shí)間,以及功效。它與機(jī)器學(xué)習(xí)前端框架、后端運(yùn)行時(shí)環(huán)境和硬件加速器目標(biāo)無(wú)關(guān)。該部門(mén)正在進(jìn)行概念驗(yàn)證,并計(jì)劃在2019年6月之前發(fā)布其第一版基準(zhǔn)測(cè)試套件,以滿足一系列神經(jīng)網(wǎng)絡(luò)架構(gòu)以及基于邊緣的推斷應(yīng)用情形需求。
EEMBCAdasmark基準(zhǔn)測(cè)試框架
針對(duì)邊緣層和任務(wù)較窄范圍的應(yīng)用,EEMBC的Adasmark基準(zhǔn)測(cè)試框架重點(diǎn)是支持采用了人工智能的智能車(chē)輛。與其機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試工作不同,EEMBC正在為高級(jí)輔助駕駛系統(tǒng)中嵌入的人工智能芯片開(kāi)發(fā)一種單獨(dú)的性能測(cè)量框架。
該套件有助于測(cè)量在多設(shè)備、多芯片、多應(yīng)用智能車(chē)輛平臺(tái)中執(zhí)行的人工智能推斷任務(wù)的性能。它對(duì)與高度并行的智能汽車(chē)應(yīng)用相關(guān)的實(shí)際推斷工作負(fù)載進(jìn)行基準(zhǔn)測(cè)試,例如,計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛、汽車(chē)環(huán)視、圖像識(shí)別和移動(dòng)增強(qiáng)現(xiàn)實(shí)等。它測(cè)量復(fù)雜智能汽車(chē)邊緣架構(gòu)的推斷性能,通常包括多個(gè)專用CPU、GPU和其他硬件加速器芯片組,它們?cè)诠餐牡妆P(pán)上執(zhí)行不同的任務(wù)。
新興的人工智能應(yīng)用場(chǎng)景將需要更多的專業(yè)芯片
幾乎可以肯定的是,會(huì)出現(xiàn)其他的專業(yè)人工智能邊緣應(yīng)用場(chǎng)景,它們需要自己的專用芯片、SoC、硬件平臺(tái)和基準(zhǔn)測(cè)試方法。人工智能芯片組的下一巨大增長(zhǎng)領(lǐng)域可能是在用于加密貨幣挖礦的加速邊緣節(jié)點(diǎn)上,這種應(yīng)用場(chǎng)景與人工智能和游戲一樣,需要大量的NvidiaGPU。
一個(gè)專門(mén)從事這一小眾市場(chǎng)的供應(yīng)商是DeepBrainChain,該公司最近宣布了一個(gè)可以在分布式配置中部署的計(jì)算平臺(tái),幫助實(shí)現(xiàn)人工智能工作負(fù)載的高性能處理,以及挖掘加密貨幣令牌。挖礦站有兩個(gè)、四個(gè)和八個(gè)GPU配置,還有獨(dú)立工作站和128個(gè)GPU定制的人工智能高性能計(jì)算集群。
不久之后,我們幾乎肯定能夠看到專門(mén)用于分布式加密貨幣挖礦的新一代人工智能ASIC。
專業(yè)硬件平臺(tái)是每一等級(jí)人工智能的未來(lái),也是我們今后生活的云到邊緣世界中每一項(xiàng)任務(wù)的未來(lái)。