業(yè)界共同的愿景是開發(fā)一款人工智能(AI)處理器,它可為神經(jīng)網(wǎng)絡(luò)處理訓(xùn)練與推理等任務(wù),甚至可能出現(xiàn)一些新的自我學(xué)習(xí)技術(shù);這種AI處理器還必須能透過大規(guī)模的平行化方式提供強(qiáng)大的性能,同時(shí)具有高功效且易于編程...
由亞馬遜(Amazon)、Google和Facebook等網(wǎng)絡(luò)巨擘所收集的大量數(shù)據(jù)集,正推動(dòng)處理這些巨量數(shù)據(jù)的新芯片復(fù)興。預(yù)計(jì)在六月底的年度計(jì)算機(jī)架構(gòu)大會(huì)上將亮相其中兩項(xiàng)最新成果。
史丹佛大學(xué)(StanfordUniversity)的研究人員將介紹一種可重配置處理器——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同時(shí)也更易于編程。此外,Nvidia的兩名資深設(shè)計(jì)人員定義了一款推理處理器,可提供較現(xiàn)有組件更高2倍性能與能源效率。
這些芯片象征著這項(xiàng)任務(wù)的冰山一角。過去一年來,英特爾(Intel)收購了三家機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司。而其競爭對手——三星(Samsung)則連手DellEMC投資英國公司Graphcore,這是該領(lǐng)域的六家獨(dú)立新創(chuàng)公司之一。
Nvidia正致力于推動(dòng)其GPU作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練引擎的銷售。同時(shí),該公司也正調(diào)整其芯片架構(gòu),使其得以更有效地處理這些任務(wù)。
Google則聲稱其龐大的x86CPU叢集以及Nvidia的GPU均不足以勝任這項(xiàng)處理任務(wù)。因此,Google推出了自家的兩款加速器版本——Tensor處理器(TPU)。
Graphcore執(zhí)行長NigelToon說:“如今正是“運(yùn)算2.0”(Compute2.0)的時(shí)代,它象征著一個(gè)全新的運(yùn)算世界。Google最終將使用以TPU為基礎(chǔ)的機(jī)架結(jié)構(gòu),幾乎不使用任何CPU,因?yàn)樗?8%的營收都來自搜尋——這正是機(jī)器學(xué)習(xí)的理想應(yīng)用?!?/p>
最終,機(jī)器學(xué)習(xí)芯片將出現(xiàn)在廣泛的嵌入式系統(tǒng)中。以汽車每年賣出1,800萬輛和服務(wù)器約1,000萬套的年銷售量來看,Toon說:“自動(dòng)駕駛車應(yīng)用可望為這項(xiàng)技術(shù)帶來一個(gè)比云端更大的市場,而且是一個(gè)以往從未存在過的市場?!?/p>
如今業(yè)界共同的愿景是開發(fā)一款人工智能(AI)處理器,它可為神經(jīng)網(wǎng)絡(luò)處理訓(xùn)練與推理等任務(wù),甚至可能出現(xiàn)一些新的自我學(xué)習(xí)技術(shù)。這種AI處理器還必須能透過大規(guī)模的平行化方式提供強(qiáng)大的性能,同時(shí)具有高功效且易于編程。
即使是這項(xiàng)開發(fā)任務(wù)的基本數(shù)學(xué)也引發(fā)熱烈討論。Toon認(rèn)為,16位浮點(diǎn)乘法與32位累加運(yùn)算的組合,能夠帶來優(yōu)化精確度以及最小誤差。
這正是NvidiaVolta架構(gòu)導(dǎo)入的Tensor核心所使用的途徑,同時(shí)也是Graphcore將在今年10月出樣給早期合作伙伴的高階芯片。該新創(chuàng)公司正專注于開發(fā)一款采用新內(nèi)存與互連的大型芯片,該芯片并可外接至各種單元與叢集。
后多核心時(shí)代的靈活性
由KunleOlukotun帶領(lǐng)的史丹佛大學(xué)研究團(tuán)隊(duì)也有類似的目標(biāo),不過,他們采取了一條與Plasticine不一樣的道路。
Olukotun說:“多核心時(shí)代即將結(jié)束……我們正處于一個(gè)現(xiàn)代應(yīng)用程序(app)改變運(yùn)算模式的時(shí)代?!監(jiān)lukotun曾經(jīng)協(xié)助一家新創(chuàng)公司率先打造出多核心設(shè)計(jì),該技術(shù)最終成為Oracle基于Sparc處理器的一部份。
“對于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型,真正需要的運(yùn)算方式與古典的確定性運(yùn)算途徑截然不同,所以這將帶來一個(gè)真正的機(jī)會(huì)?!?/p>
如同英國布里斯托的競爭對手Graphcore一樣,史丹佛大學(xué)研究團(tuán)隊(duì)摒棄了共享一致的快取等傳統(tǒng)思維。史丹佛大學(xué)數(shù)據(jù)科學(xué)計(jì)劃執(zhí)行總監(jiān)StephenEglash認(rèn)為,Plasticine“最令人興奮之處在于硬件可在運(yùn)行時(shí)重新配置,為特定計(jì)算方式實(shí)現(xiàn)優(yōu)化?!?/p>
Olukotun說:“我們的目標(biāo)在于讓擁有專業(yè)知識(shí)的任何人都能建立可生產(chǎn)的機(jī)器學(xué)習(xí)系統(tǒng),而不一定得由機(jī)器學(xué)習(xí)或硬件領(lǐng)域的專家來做。”
為了實(shí)現(xiàn)這一目標(biāo),史丹佛大學(xué)定義了一種新的語言Spatial,可將算法的各部份映像至平行處理器的各部份。Olukotun說:“我們擁有完整的編譯程序流程,從高層級(jí)的TensorFlow架構(gòu)到硬件呈現(xiàn)。..。..事實(shí)上,它具有比FPGA更高10倍每瓦特性能,也更易于編程100倍?!?/p>
Spatial類似于Nvidia的CudaGPU編程語言,但應(yīng)該更易于使用。它能將諸如分散/收集或MapReduce等功能映像至硬件中的外顯內(nèi)存階層架構(gòu),經(jīng)由DRAM和SRAM實(shí)現(xiàn)串流數(shù)據(jù)集。
因此,Pasticine處理器“是一項(xiàng)軟件至上的計(jì)劃,”O(jiān)lukotun說。
Eglash認(rèn)為在物聯(lián)網(wǎng)的邊緣節(jié)點(diǎn)正需要這樣的技術(shù)。“我們所產(chǎn)生的數(shù)據(jù)將會(huì)比傳送至云端的更龐大,所以必須采用一些分布式的本地運(yùn)算?!?/p>
短期來看,機(jī)器學(xué)習(xí)將為智能型手機(jī)帶來“超級(jí)個(gè)性化”,針對用戶的喜好自動(dòng)量身打造。別再為密碼和指紋傷腦筋了。Eglash說:“你的手機(jī)可能在幾秒內(nèi)就知道你是不是本尊。”
在工業(yè)物聯(lián)網(wǎng)(IIoT),推理任務(wù)已經(jīng)被分配至網(wǎng)關(guān)了。GEDigital云端工程主管DarrenHaas說,“我們所打造的一切都可以被劃分成較小的裝置,甚至是RaspberryPi。..我們在云端建立了大規(guī)模的模型,并使其得以在邊緣執(zhí)行于輕量級(jí)硬件上?!?/p>
史丹佛大學(xué)的Plasticine架構(gòu)
史丹佛大學(xué)的Plasticine是一種全新的架構(gòu),可能是Graphcore等新創(chuàng)公司將會(huì)采用的技術(shù)。它充份利用了平行模式和高層級(jí)抽象,以擷取有關(guān)數(shù)據(jù)位置、內(nèi)存存取模式和控制流程等細(xì)節(jié),從而在“一系列的密集與稀疏應(yīng)用上進(jìn)行操作”。
在該芯片核心采用16×8的交錯(cuò)式圖形運(yùn)算單元(PCU)數(shù)組與圖形內(nèi)存單元(PMU),透過3個(gè)互連信道利用3種控制協(xié)議進(jìn)行連接。這款尺寸為113mm2的芯片采用Spatial將應(yīng)用映像至數(shù)組上;相較于采用類似28nm制程打造的FPGA,該芯片可提供更高95倍的性能以及高達(dá)77倍的每瓦性能。
Plasticine在1GHz頻率頻率下的功耗高達(dá)49W,支持12.3TFlops的峰值浮點(diǎn)運(yùn)算性能,以及16MB的芯片容量。
PCU是執(zhí)行巢狀模式之可重配置SIMD功能單元的多級(jí)管線。PMU使用庫存的緩存器內(nèi)存和專用尋址邏輯與地址譯碼器。
這些主單元和其他周邊組件透過字級(jí)純量、多字符向量和位級(jí)控制互連進(jìn)行連接,且全部都采用相同的拓?fù)浣Y(jié)構(gòu)。各個(gè)連接都采用分布式的分層控制機(jī)制,以盡可能減少使用同步單元,從而實(shí)現(xiàn)序列、流水線或串流的執(zhí)行。
該途徑簡化了編譯程序映像并可提高執(zhí)行效率?!懊總€(gè)Plasticine組件均用于映像應(yīng)用的特定部份:本地地址計(jì)算在PMU中完成,DRAM地址運(yùn)算發(fā)生在DRAM地址管理單元,其余的數(shù)據(jù)運(yùn)算則在PCU中進(jìn)行。”
Olukotun解釋說:“本質(zhì)上,它是一組高度庫存的內(nèi)存,支持專用地址單元產(chǎn)生附近的地址。只需執(zhí)行計(jì)算,即可讓內(nèi)存在正確的時(shí)間將數(shù)據(jù)串流至運(yùn)算單元,而無需解譯指令。”
該芯片采用四個(gè)DDR信道外接DRAM,并進(jìn)行緩沖和管理,以盡可能減少芯片外處理。
Olukotun說:“許多機(jī)器學(xué)習(xí)都專注于建置卷積神經(jīng)網(wǎng)絡(luò)(CNN),但我們的目標(biāo)是打造更靈活且涵蓋稀不斷變化中的疏密集算法,讓開發(fā)人員可以將其設(shè)計(jì)想法傳達(dá)給硬件?!?/p>
研究人員采用周期精確仿真來合成設(shè)計(jì)的RTL,為線性代數(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析與圖形分析等任務(wù)產(chǎn)生基準(zhǔn)。他說:“我們希望這些設(shè)計(jì)概念能直接用于芯片上,并計(jì)劃在6到18個(gè)月內(nèi)進(jìn)行芯片設(shè)計(jì)?!?/p>
Nvidia研究人員打造稀疏推理引擎
另一組由9名研究人員組成的研究團(tuán)隊(duì)(其中有7人來自Nvidia)將介紹稀疏卷積神經(jīng)網(wǎng)絡(luò)(SCNN)推理加速器。該研究團(tuán)隊(duì)包括資深的微處理器設(shè)計(jì)人員JoelEmer(曾協(xié)助定義同步多線程),以及Nvdia首席科學(xué)家WilliamDally。
相較于同級(jí)配置的密集CNN加速器,SCNN可提供更高2.7倍的性能和2.3倍的能源效率。該芯片采取較以往的研究更先進(jìn)的途徑,可消除無關(guān)緊要的數(shù)學(xué)運(yùn)算,并專注于以最高效的方法處理CNN權(quán)重與啟動(dòng)。
此外,它采用了一種新的數(shù)據(jù)流,可在壓縮編碼過程中保持稀疏權(quán)重與啟動(dòng),從而避免不必要的數(shù)據(jù)傳輸以及減少儲(chǔ)存的需求。此外,“SCNN數(shù)據(jù)流有助于將這些權(quán)重與啟動(dòng)有效地傳遞到乘法器數(shù)組,并在此廣泛重復(fù)使用?!?/p>
該途徑可讓“較大CNN的所有操作量保留在各層間的芯片緩沖區(qū),完全不必使用大規(guī)模網(wǎng)絡(luò)所需的高成本跨層DRAM參考資源。”
該芯片的處理元素(PE)采用支持權(quán)重和啟動(dòng)向量的乘法器數(shù)組。該芯片采用16nm制程技術(shù),將64個(gè)PE與16個(gè)乘法器封裝于7.4mm2模塊中,使其尺寸略大于類似的密集CNN加速器。
該論文并比較了SCNN與其他研究中的芯片。然而,Dally猜測這款芯片“比商用推理加速器的效率更高,因?yàn)樗玫氖窍∈柙O(shè)計(jì)途徑?!?/p>
如同Plasticine一樣,目前的研究成果是以仿真為基礎(chǔ),尚未制造芯片。Dally說:“我們正為這款設(shè)計(jì)進(jìn)行布局以及時(shí)序收斂?!?/p>
Nvidia尚未宣布商用化SCNN技術(shù)的任何計(jì)劃,但在研究論中指出,“我們正持續(xù)在這個(gè)領(lǐng)域的研發(fā)工作。”
更多資訊請關(guān)注電力電子頻道