2017年5月4日,中國上?!请娮樱绹鳦adence公司,NASDAQ:CDNS)今日正式公布業(yè)界首款獨立完整的神經(jīng)網(wǎng)絡(luò)DSP—Cadence?Tensilica?VisionC5DSP,面向?qū)ι窠?jīng)網(wǎng)絡(luò)計算能力有極高要求的視覺設(shè)備、雷達(dá)/光學(xué)雷達(dá)和融合傳感器等應(yīng)用量身優(yōu)化。針對車載、監(jiān)控安防、無人機(jī)和移動/可穿戴設(shè)備應(yīng)用,VisionC5DSP1TMAC/s的計算能力完全能夠勝任所有神經(jīng)網(wǎng)絡(luò)的計算任務(wù)。如需了解更多內(nèi)容。
新聞要點:
完整獨立的DSP核心,全面支持各級神經(jīng)網(wǎng)絡(luò)層
芯片面積不到1mm2,計算速度可達(dá)每秒1TeraMAC(TMAC)
通用的可編程解決方案,為未來而生,滿足不斷演進(jìn)的技術(shù)需求
為視覺設(shè)備、雷達(dá)/光學(xué)雷達(dá)和融合傳感器應(yīng)用度身優(yōu)化
隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用的日益深入和復(fù)雜,對計算的要求也與日俱增;同時,神經(jīng)網(wǎng)絡(luò)的自身架構(gòu)在不斷更新?lián)Q代,新網(wǎng)絡(luò)、新應(yīng)用和新市場也層出不窮。上述趨勢之下,業(yè)界亟需一款針對嵌入式系統(tǒng)量身定制的高性能、通用型神經(jīng)網(wǎng)絡(luò)解決方案,不僅應(yīng)該具備極低的功耗,還應(yīng)擁有高度的可編程能力,以適應(yīng)未來變化,降低風(fēng)險。
神經(jīng)網(wǎng)絡(luò)DSPvs.神經(jīng)網(wǎng)絡(luò)加速器
基于攝像頭的視覺系統(tǒng)在汽車、無人機(jī)和安防領(lǐng)域最為常見,這種架構(gòu)需要兩種最基礎(chǔ)的視覺優(yōu)化計算模式。首先,利用傳統(tǒng)視覺算法對攝像頭捕捉到的照片或圖像進(jìn)行增強(qiáng);其次,使用基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知算法對物體進(jìn)行檢測和識別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴與圖像DSP連接的硬件加速器;神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運行在DSP上,卷積層則運行在硬件加速器上。這種架構(gòu)不但效率低下,且耗能較高。
VisionC5DSP是專門針對神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的DSP,可以實現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像DSP能力得以釋放,獨立運行圖像增強(qiáng)應(yīng)用,VisionC5DSP則負(fù)責(zé)執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過移除神經(jīng)網(wǎng)絡(luò)DSP和主視覺/圖像DSP之間的冗余數(shù)據(jù)傳輸,VisionC5DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時,VisionC5DSP還提供針對神經(jīng)網(wǎng)絡(luò)的單核編程模型。
“我們的很多客戶都在糾結(jié)如何選擇理想的神經(jīng)網(wǎng)絡(luò)平臺,畢竟一款產(chǎn)品的開發(fā)可能耗時數(shù)年,”Cadence公司Tensilica事業(yè)部市場高級總監(jiān)SteveRoddy表示?!半S時在線(always-on)嵌入式系統(tǒng)的神經(jīng)網(wǎng)絡(luò)處理器不僅需要低功耗和較快的圖像處理速度,靈活性和永不過時(future-proof)的前瞻性也必不可少。目前的平臺都不夠理想,客戶亟需一個全新的解決方案。VisionC5DSP通用型神經(jīng)網(wǎng)絡(luò)DSP應(yīng)運而生,它集成方便、使用靈活,功耗能效較CNN加速器、GPU和CPU也更為出色?!?/p>
“現(xiàn)實世界中的深度學(xué)習(xí)應(yīng)用數(shù)量龐大,種類繁多,對計算的要求非??量?,”嵌入視覺聯(lián)盟(EmbeddedVisionAlliance)創(chuàng)始人JeffBier表示。“VisionC5DSP作為神經(jīng)網(wǎng)絡(luò)專用編程處理器,可以幫助我們在低成本、低功耗設(shè)備上應(yīng)用深度學(xué)習(xí)技術(shù)。”
VisionC5DSP的參數(shù)與性能
依托獨立引擎,VisionC5DSP具備領(lǐng)先的神經(jīng)網(wǎng)絡(luò)性能:
·不到1mm2的芯片面積可以實現(xiàn)1TMAC/秒的計算能力(吞吐量較VisionP6DSP提高4倍),為深度學(xué)習(xí)內(nèi)核提供極高的計算吞吐量
·10248-bitMAC或51216-bitMAC確保8-bit和16-bit精度的出色性能
·128路8-bitSIMD或64路16-bitSIMD的VLIWSIMD架構(gòu)
·專為多核設(shè)計打造,以極少的資源代價獲得NxTMAC的處理能力
·內(nèi)置iDMA和AXI4總線接口
·使用與VisionP5和P6DSP一致的經(jīng)驗證軟件工具包
·基于業(yè)界知名的AlexNetCNNBenchmark,VisionC5DSP的計算速度較業(yè)界的GPU最快提高6倍;InceptionV3CNNbenchmark,有9倍的性能提升。
VisionC5DSP是一款靈活前瞻的永不過時(future-proof)解決方案,支持各類內(nèi)核尺寸、深度和輸入規(guī)格。VisionC5DSP采用多項系數(shù)壓縮/解壓技術(shù),支持未來添加的新計算層。與之相反,CNN硬件加速器由于程序重編能力有限,擴(kuò)展能力較差。
VisionC5DSP搭載Cadence神經(jīng)網(wǎng)絡(luò)Mapping工具鏈,可將Caffe和TensorFlow等映射為在VisionC5DSP上高度優(yōu)化過的可執(zhí)行代碼,充分發(fā)揮手動優(yōu)化神經(jīng)網(wǎng)絡(luò)庫的豐富功能。
更多資訊請關(guān)注傳感器頻道