2010年以來,由于大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)量呈現(xiàn)爆炸性增長態(tài)勢,而傳統(tǒng)的計算架構(gòu)又無法支撐深度學習的大規(guī)模并行計算需求,于是研究界對AI芯片進行了新一輪的技術(shù)研發(fā)與應(yīng)用研究。AI芯片是人工智能時代的技術(shù)核心之一,決定了平臺的基礎(chǔ)架構(gòu)和發(fā)展生態(tài)。
目前,人工智能芯片技術(shù)領(lǐng)域的國內(nèi)代表性企業(yè)包括中科寒武紀、中星微、地平線機器人、深鑒科技、靈汐科技、啟英泰倫、百度、華為等,國外包括英偉達、AMD、Google、高通、NervanaSystems、Movidius、IBM、ARM、CEVA、MIT/Eyeriss、蘋果、三星等。(以下排名不分先后)
中科寒武紀
寒武紀科技成立于2016年,總部在北京,創(chuàng)始人是中科院計算所的陳天石、陳云霽兄
弟,公司致力于打造各類智能云服務(wù)器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國科投資、中科圖靈、元禾原點、涌鏵投資聯(lián)合投資,為全球AI芯片領(lǐng)域第一個獨角獸初創(chuàng)公司。
寒武紀是全球第一個成功流片并擁有成熟產(chǎn)品的AI芯片公司,擁有終端AI處理器IP和云端高性能AI芯片兩條產(chǎn)品線。2016年發(fā)布的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智能手機、安防監(jiān)控、無人機、可穿戴設(shè)備以及智能駕駛等各類終端設(shè)備,在運行主流智能算法時性能功耗比全面超越傳統(tǒng)處理器。
中星微
1999年,由多位來自硅谷的博士企業(yè)家在北京中關(guān)村科技園區(qū)創(chuàng)建了中星微電子有限公司,啟動并承擔了國家戰(zhàn)略項目——“星光中國芯工程”,致力于數(shù)字多媒體芯片的開發(fā)、設(shè)計和產(chǎn)業(yè)化。
2016年初,中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò)處理器(NPU)的SVAC視頻編解碼SoC,使得智能分析結(jié)果可以與視頻數(shù)據(jù)同時編碼,形成結(jié)構(gòu)化的視頻碼流。該技術(shù)被廣泛應(yīng)用于視頻監(jiān)控攝像頭,開啟了安防監(jiān)控智能化的新時代。自主設(shè)計的嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)采用了“數(shù)據(jù)驅(qū)動并行計算”架構(gòu),專門針對深度學習算法進行了優(yōu)化,具備高性能、低功耗、高集成度、小尺寸等特點,特別適合物聯(lián)網(wǎng)前端智能的需求。
地平線機器人
地平線機器人成立于2015年,總部在北京,創(chuàng)始人是前百度深度學習研究院負責人余凱。
BPU(BrainProcessingUnit)是地平線機器人自主設(shè)計研發(fā)的高效人工智能處理器架構(gòu)IP,支持ARM/GPU/FPGA/ASIC實現(xiàn),專注于自動駕駛、人臉圖像辨識等專用領(lǐng)域。2017年,地平線發(fā)布基于高斯架構(gòu)的嵌入式人工智能解決方案,將在智能駕駛、智能生活、公共安防三個領(lǐng)域進行應(yīng)用,第一代BPU芯片“盤古”目前已進入流片階段,預(yù)計在2018年下半年推出,能支持1080P的高清圖像輸入,每秒鐘處理30幀,檢測跟蹤數(shù)百個目標。地平線的第一代BPU采用TSMC的40nm工藝,相對于傳統(tǒng)CPU/GPU,能效可以提升2~3個數(shù)量級(100~1,000倍左右)。
深鑒科技
深鑒科技成立于2016年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬件研究者創(chuàng)立。深鑒科技于2018年7月被賽靈思收購。
深鑒科技將其開發(fā)的基于FPGA的神經(jīng)網(wǎng)絡(luò)處理器稱為DPU。到目前為止,深鑒公開發(fā)布了兩款DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),其中,亞里士多德架構(gòu)是針對卷積神經(jīng)網(wǎng)絡(luò)CNN而設(shè)計;笛卡爾架構(gòu)專為處理DNN/RNN網(wǎng)絡(luò)而設(shè)計,可對經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進行極致高效的硬件加速。相對于IntelXeonCPU與NvidiaTitanXGPU,應(yīng)用笛卡爾架構(gòu)的處理器在計算速度上分別提高189倍與13倍,具有24,000倍與3,000倍的更高能效。
靈汐科技
靈汐科技于2018年1月在北京成立,聯(lián)合創(chuàng)始人包括清華大學的世界頂尖類腦計算研究者。公司致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic)開發(fā),特點在于既能夠高效支撐現(xiàn)有流行的機器學習算法(包括CNN,MLP,LSTM等網(wǎng)絡(luò)架構(gòu)),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法;使芯片具有高計算力、高多任務(wù)并行度和較低功耗等優(yōu)點。軟件工具鏈方面支持由Caffe、TensorFlow等算法平臺直接進行神經(jīng)網(wǎng)絡(luò)的映射編譯,開發(fā)友善的用戶交互界面。Tianjic可用于云端計算和終端應(yīng)用場景,助力人工智能的落地和推廣。
啟英泰倫
啟英泰倫于2015年11月在成都成立,是一家語音識別芯片研發(fā)商。啟英泰倫的CI1006是基于ASIC架構(gòu)的人工智能語音識別芯片,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元,能夠完美支持DNN運算架構(gòu),進行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學習語音技術(shù)對大量數(shù)據(jù)的處理效率。
百度
百度2017年8月HotChips大會上發(fā)布了XPU,這是一款256核、基于FPGA的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU采用新一代AI處理架構(gòu),擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學習平臺PaddlePaddle做了高度的優(yōu)化和加速。據(jù)介紹,XPU關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似CPU的靈活性。但目前XPU有所欠缺的仍是可編程能力,而這也是涉及FPGA時普遍存在的問題。到目前為止,XPU尚未提供編譯器。
華為
麒麟970搭載的神經(jīng)網(wǎng)絡(luò)處理器NPU采用了寒武紀IP。麒麟970采用了TSMC10nm工藝制程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構(gòu)方面為4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核MaliG72MP12GPU,在圖形處理以及能效兩項關(guān)鍵指標方面分別提升20%和50%;NPU采用HiAI移動計算架構(gòu),在FP16下提供的運算性能可以達到1.92TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務(wù),有大約具備50倍能效和25倍性能優(yōu)勢。
英偉達
英偉達創(chuàng)立于1993年,總部位于美國加利福尼亞州圣克拉拉市。早在1999年,英偉達發(fā)明了GPU,重新定義了現(xiàn)代計算機圖形技術(shù),徹底改變了并行計算。
深度學習對計算速度有非常苛刻的要求,而英偉達的GPU芯片可以讓大量處理器并行運算,速度比CPU快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從GoogleBrain采用1.6萬個GPU核訓(xùn)練DNN模型,并在語音和圖像識別等領(lǐng)域獲得巨大成功以來,英偉達已成為AI芯片市場中無可爭議的領(lǐng)導(dǎo)者。
AMD
美國AMD半導(dǎo)體公司專門為計算機、通信和消費電子行業(yè)設(shè)計和制造各種創(chuàng)新的微處理器(CPU、GPU、APU、主板芯片組、電視卡芯片等),以及提供閃存和低功率處理器解決方案,公司成立于1969年。AMD致力為技術(shù)用戶——從企業(yè)、政府機構(gòu)到個人消費者——提供基于標準的、以客戶為中心的解決方案。
2017年12月Intel和AMD宣布將聯(lián)手推出一款結(jié)合英特爾處理器和AMD圖形單元的筆記本電腦芯片。目前AMD擁有針對AI和機器學習的高性能RadeonInstinc加速卡,開放式軟件平臺ROCm等。
Google在2016年宣布獨立開發(fā)一種名為TPU的全新的處理系統(tǒng)。TPU是專門為機器學習應(yīng)用而設(shè)計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需晶體管數(shù)量的方式,讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結(jié)果。在2016年3月打敗了李世石和2017年5月打敗了柯杰的阿爾法狗,就是采用了谷歌的TPU系列芯片。
GoogleI/O-2018開發(fā)者大會期間,正式發(fā)布了第三代人工智能學習專用處理器TPU3.0。TPU3.0采用8位低精度計算以節(jié)省晶體管數(shù)量,對精度影響很小但可以大幅節(jié)約功耗、加快速度,同時還有脈動陣列設(shè)計,優(yōu)化矩陣乘法與卷積運算,并使用更大的片上內(nèi)存,減少對系統(tǒng)內(nèi)存的依賴。速度能加快到最高100PFlops(每秒1000萬億次浮點計算)。
高通
在智能手機芯片市場占據(jù)絕對優(yōu)勢的高通公司,也在人工智能芯片方面積極布局。據(jù)
高通提供的資料顯示,其在人工智能方面已投資了Clarifai公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)”的云知聲。
而早在2015年CES上,高通就已推出了一款搭載驍龍SoC的飛行機器人——SnapdragonCargo。高通認為在工業(yè)、農(nóng)業(yè)的監(jiān)測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發(fā)揮其在計算機視覺領(lǐng)域的能力。此外,高通的驍龍820芯片也被應(yīng)用于VR頭盔中。事實上,高通已經(jīng)在研發(fā)可以在本地完成深度學習的移動端設(shè)備芯片。
NervanaSystems
Nervana創(chuàng)立于2014年,公司推出的TheNervanaEngine是一個為深度學習專門定制和優(yōu)化的ASIC芯片。這個方案的實現(xiàn)得益于一項叫做HighBandwidthMemory的新型內(nèi)存技術(shù),這項技術(shù)同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務(wù)“inthecloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機構(gòu)、醫(yī)療保健提供者和政府機構(gòu)所使用的服務(wù)。他們的新型芯片將會保證Nervana云平臺在未來的幾年內(nèi)仍保持最快的速度。
Movidius(被Intel收購)
2016年9月,Intel發(fā)表聲明收購了Movidius。Movidius專注于研發(fā)高性能視覺處理芯片。其最新一代的Myriad2視覺處理器主要由SPARC處理器作為主控制器,加上專門的DSP處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以DSP架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。
該芯片已被大量應(yīng)用在Google3D項目的Tango手機、大疆無人機、FLIR智能紅外攝像機、??瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中。
IBM
IBM很早以前就發(fā)布過watson,投入了很多的實際應(yīng)用。除此之外,還啟動了類腦芯片的研發(fā),即TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。SyNapse全稱是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而SyNapse正好是突觸的意思),其終極目標是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計算機體系結(jié)構(gòu)。
ARM
ARM推出全新芯片架構(gòu)DynamIQ,通過這項技術(shù),AI芯片的性能有望在未來三到五年內(nèi)提升50倍。
ARM的新CPU架構(gòu)將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為AI算法設(shè)計的處理器。芯片廠商將可以為新處理器配置最多8個核心。同時為了能讓主流AI在自己的處理器上更好地運行,ARM還將推出一系列軟件庫。
CEVA
CEVA是專注于DSP的IP供應(yīng)商,擁有眾多的產(chǎn)品線。其中,圖像和計算機視覺DSP產(chǎn)品CEVA-XM4是第一個支持深度學習的可編程DSP,而其發(fā)布的新一代型號CEVA-XM6,具有更優(yōu)的性能、更強大的計算能力以及更低的能耗。
CEVA指出,智能手機、汽車、安全和商業(yè)應(yīng)用,如無人機、自動化將是其業(yè)務(wù)開展的主要目標。
MIT/Eyeriss
Eyeriss事實上是MIT的一個項目,還不是一個公司,從長遠來看,如果進展順利,很可能孵化出一個新的公司。
Eyeriss是一個高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建168個核心,專門用來部署神經(jīng)網(wǎng)路(neuralnetwork),效能為一般GPU的10倍。其技術(shù)關(guān)鍵在于最小化GPU核心和記憶體之間交換數(shù)據(jù)的頻率(此運作過程通常會消耗大量的時間與能量):一般GPU內(nèi)的核心通常共享單一記憶體,但Eyeriss的每個核心擁有屬于自己的記憶體。
目前,Eyeriss主要定位在人臉識別和語音識別,可應(yīng)用在智能手機、穿戴式設(shè)備、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。
蘋果
在iPhone8和iPhoneX的發(fā)布會上,蘋果明確表示其中所使用的A11處理器集成了一個專用于機器學習的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(NeuralEngine)”,每秒運算次數(shù)最高可達6000億次。這塊芯片將能夠改進蘋果設(shè)備在處理需要人工智能的任務(wù)時的表現(xiàn),比如面部識別和語音識別等。
三星
2017年,華為海思推出了麒麟970芯片,據(jù)知情人士透露,為了對標華為,三星已經(jīng)
研發(fā)了許多種類的人工智能芯片。三星計劃在未來三年內(nèi)新上市的智能手機中都采用人工智能芯片,并且他們還將為人工智能設(shè)備建立新的組件業(yè)務(wù)。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。