多年來,半導(dǎo)體行業(yè)一直致力于將越來越多的組件緊密的集成到單個片上系統(tǒng)中(SoC)。畢竟這對于龐大的應(yīng)用而言是非常實用的解決方案。通過優(yōu)化處理器的定位,存儲器和外部設(shè)備芯片廠商能夠?qū)?shù)據(jù)路徑調(diào)整到最短,從而提高功率效率并取得更高的性能,此外還能夠顯著的降低成本。通過這些方法,該行業(yè)已經(jīng)取得了巨大的成功,SoC幾乎是我們所有消費電子產(chǎn)品的標(biāo)準(zhǔn)組件。
AI作為一種標(biāo)準(zhǔn)
隨著更多的公司意識到利用神經(jīng)網(wǎng)絡(luò)處理各種任務(wù)(比如自然語言處理、圖片識別分類)的巨大潛力,引入人工智能要素的產(chǎn)品數(shù)量也在穩(wěn)步增加。與此同時,這些任務(wù)的處理過程正在從基于云的架構(gòu)遷移到本地終端設(shè)備來實現(xiàn),現(xiàn)在專用硬件神經(jīng)網(wǎng)絡(luò)加速器也已經(jīng)嵌入到SoC器件中。
AI正集成到更多的SoC器件中
從語音激活的消費電子產(chǎn)品(比如虛擬助理)到高級的駕駛輔助系統(tǒng)(ADAS),集成的神經(jīng)網(wǎng)絡(luò)人工智能(AI)所面臨的機會正在多個細(xì)分的市場中展開,不可否認(rèn),人工智能(AI)被認(rèn)為是許多解決方案必不可少的要素。
一種方法不能適用所有
然而,盡管AI應(yīng)用程序的數(shù)量正在不斷增加,但這并不意味著集成有AI加速功能的SoCs能夠適用所有的場景。實際上,如果我們考慮AI能夠覆蓋大多數(shù)的細(xì)分市場,那么由于使用該技術(shù)的產(chǎn)品可能有很多不同的處理要求,自然就會產(chǎn)生碎片化的差異。細(xì)分的市場對于專用的SoC器件是一種挑戰(zhàn),因此“一刀切”通用的方案不再適用。雖然一些市場(比如智能手機、ADAS)為SoC供應(yīng)商提供了大量的機會,但是很多針對AI使用的市場目前仍然比較低迷。例如某些產(chǎn)品可能需要AI進(jìn)行語音處理或圖像識別,但不一定兩者都需要。同樣的智能家居供應(yīng)商認(rèn)為將傳統(tǒng)的智能手機SoC嵌入AI功能就集成到他們的產(chǎn)品中并不是很好的解決方案,因為這不符合成本效益。
認(rèn)識AI協(xié)同芯片
現(xiàn)在臺式機CPU和移動SoC大多都采用多核芯片,因為它們靈活的可擴展架構(gòu)使其能夠按需提供不同的性能,AI“協(xié)同芯片”采用類似的方法,它們不僅僅只被設(shè)計成一個,而是多個計算GPU和神經(jīng)網(wǎng)絡(luò)加速器(NNA)來為特定的應(yīng)用提供足夠的性能,同時確保對硅片尺寸進(jìn)行優(yōu)化,將芯片的成本降至最低。這些處理器會緊挨著主應(yīng)用處理器(SoC)作為“協(xié)同芯片”,承載主應(yīng)用處理器上的NNA內(nèi)核需要處理的AI推理任務(wù)。
現(xiàn)在SoC供應(yīng)商有機會創(chuàng)建一個傳統(tǒng)的通用應(yīng)用處理器,能夠經(jīng)濟高效的適用于多個市場,同時可以配套AI協(xié)同芯片來滿足一些特定應(yīng)用或小眾應(yīng)用對于AI功能的需求。
從OEM廠商的角度來看,他們現(xiàn)在可以選擇適當(dāng)?shù)財U展自己的產(chǎn)品解決方案,這取決于他們期望在整個應(yīng)用方案中對于AI處理操作的開銷。
一個AI處理器的例子:根據(jù)不同應(yīng)用NNA的數(shù)量可以靈活的增減
典型的協(xié)同AISoC芯片包括負(fù)責(zé)內(nèi)部事務(wù)的通用控制CPU、用于高性能計算的GPU內(nèi)核(而不是專門用于處理圖形和3D變換操作)以及多個NNA(神經(jīng)網(wǎng)絡(luò)加速器),根據(jù)不同的神經(jīng)網(wǎng)絡(luò)和推理引擎可靈活組合,此外還可以根據(jù)不同的任務(wù)采用不同的精度。舉個例子,在雙NNA系統(tǒng)中,其中一個NNA可以用來執(zhí)行圖像識別任務(wù),將結(jié)果傳遞給另一個NNA之前能夠識別出場景中的人臉部分,另一個NNA會將人臉部分劃分為單獨的特征從而識別出面部表情。
另一個例子就是汽車,對六核心的AI協(xié)同芯片進(jìn)行分區(qū),其中三個NNA(每個NNA負(fù)責(zé)不同的方面)用來識別道路上的標(biāo)志,與此同時另外三個將專門負(fù)責(zé)行人檢測。NNA的數(shù)量和任務(wù)的分配是根據(jù)應(yīng)用的需求而確定的。這個概念可以擴展到一系列專用的AI處理器,每個處理器都會集成不同數(shù)量的NNA來滿足不同任務(wù)的性能需求。
從云端到本地
我們已經(jīng)看到了部署在云端的專用AI芯片,比如谷歌公司推出的TPU、微軟公司和英特爾合作的Brainwave項目采用StratixFPGA作為解決方案,現(xiàn)在這些主要用于AI的機器學(xué)習(xí)和算法的訓(xùn)練。
典型的云端AI解決方案——太龐大了!
然而并不是所有的設(shè)備都會連接到云服務(wù),面對眾多不用的市場應(yīng)用,業(yè)界認(rèn)為至少可以把一些AI任務(wù)用本地設(shè)備自身來完成,這么多市場需求非常的復(fù)雜,正如我們之前討論過的,沒有完全通用的解決方案。業(yè)界的所有供應(yīng)商都已經(jīng)開始利用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)某些特殊的需求,而且向協(xié)同AI芯片的轉(zhuǎn)變有望成為AI處理解決方案又一令人興奮的一步。