日韩精品无码有码视频,国产黄片一区二区三区

　　AI芯片如何才能跟上算法的速度?AI芯片評(píng)估面臨什么挑戰(zhàn)?邊緣AI芯片設(shè)計(jì)之前的評(píng)估尤為重要!

　　在人工智能時(shí)代，一款A(yù)I產(chǎn)品成功與否的終極衡量標(biāo)準(zhǔn)是能在多大程度上提高我們生活的效率。隨著AI技術(shù)從云端向邊緣發(fā)展，需要優(yōu)化的工程問題將更為復(fù)雜。為了產(chǎn)品最終的成功，在芯片設(shè)計(jì)之前有效的評(píng)估變得越來(lái)越重要。然而由于AI芯片應(yīng)用場(chǎng)景紛繁復(fù)雜的屬性，所以行業(yè)內(nèi)需要正確的且具有專業(yè)知識(shí)的評(píng)估工具。

　　AI行業(yè)的難題之一：

　　AI芯片跟不上算法的速度

　　早在2019年斯坦福大學(xué)就有報(bào)告指出，AI對(duì)算力需求的速度要快于芯片的發(fā)展速度?！霸? 2012年之前，AI的發(fā)展與摩爾定律的遵循度極高，計(jì)算能力每?jī)赡攴环?，?012年之后，AI的計(jì)算能力每3.4個(gè)月就翻一番。”

　　當(dāng)通用處理器算力跟不上 AI 應(yīng)用的需求，針對(duì) AI 計(jì)算的專用處理器便誕生了，也就是常說的“AI 芯片”。自2015年AI算法在視覺識(shí)別方面超越人類分?jǐn)?shù)，業(yè)界對(duì)AI芯片關(guān)注度大增，也因此帶動(dòng)了相關(guān)IP技術(shù)的發(fā)展，加快了下一代處理器和存儲(chǔ)器的速度，實(shí)現(xiàn)了更高的帶寬接口，從而緊緊跟上AI算法的步伐。圖1顯示了自2012年引入反向傳播和現(xiàn)代神經(jīng)網(wǎng)絡(luò)，并與NVIDIA的重型計(jì)算 GPU 引擎相結(jié)合后，AI典型錯(cuò)誤率呈現(xiàn)肉眼可見的降低。

　　隨著AI 算法日益復(fù)雜，無(wú)法在專為消費(fèi)類產(chǎn)品設(shè)計(jì)的 SoC 上執(zhí)行，需要使用修剪、量化等技術(shù)對(duì)齊進(jìn)行壓縮，從而減少系統(tǒng)需要的內(nèi)存和計(jì)算量，但這樣就會(huì)影響準(zhǔn)確性。所以工程上面臨一個(gè)挑戰(zhàn)：如何實(shí)施壓縮技術(shù)而不影響AI應(yīng)用所需的精度?

　　除了AI算法復(fù)雜性的提升之外，由于輸入數(shù)據(jù)的增加，推理所需的數(shù)據(jù)量也急劇增長(zhǎng)。圖 2 顯示了優(yōu)化后的視覺算法所需的內(nèi)存和計(jì)算量。該算法設(shè)計(jì)為相對(duì)較小的 6MB 內(nèi)存占用空間(SSD-MobileNet-V1 的內(nèi)存要求)。在這個(gè)特定示例中，我們可以看到，隨著像素大小和顏色深度的增加，最新的圖像捕獲中的內(nèi)存要求已從 5MB 增加到 400MB 以上。

　　目前最新的三星手機(jī)CMOS圖像傳感器攝像頭支持高達(dá)108MP。理論上，這些攝像頭在30fps和超過1.3GB 內(nèi)存下可能需要40 TOPS的性能。但I(xiàn)SP中的技術(shù)以及 AI 算法中特定的區(qū)域，無(wú)法滿足這些要求，40 TOPS性能尚無(wú)法在手機(jī)上實(shí)現(xiàn)。但通過此示例能看出邊緣設(shè)備的復(fù)雜性和挑戰(zhàn)，并且也正在推動(dòng)傳感器接口IP的發(fā)展。MIPI CSI-2 具有專門的區(qū)域來(lái)解決這個(gè)問題，MIPI C/D-PHY 繼續(xù)增加帶寬，以處理驅(qū)動(dòng)數(shù)億像素的最新 CMOS 圖像傳感器數(shù)據(jù)。

　　如今的解決方案就是壓縮AI算法，壓縮圖像，這就使得芯片優(yōu)化變得極其復(fù)雜，尤其是對(duì)于內(nèi)存有限、處理量有限且功耗預(yù)算較小的 SoC。

　　AI行業(yè)難題二：AI芯片評(píng)估面臨挑戰(zhàn)

　　AI芯片廠商通常對(duì)會(huì)其芯片進(jìn)行一些基準(zhǔn)測(cè)試?，F(xiàn)在的SoC有多種不同的衡量指標(biāo)。首先，每秒萬(wàn)億次運(yùn)算 (TOPS) 是性能的一個(gè)主要指標(biāo)，通過這項(xiàng)數(shù)據(jù)可以更清楚地了解芯片能力，例如芯片可以處理的運(yùn)算類型和質(zhì)量。再者，每秒推理數(shù)也是一個(gè)主要指標(biāo)，但需要了解頻率和其他參數(shù)。因此，行業(yè)內(nèi)開發(fā)了額外的基準(zhǔn)測(cè)試來(lái)幫忙AI 芯片進(jìn)行評(píng)估。

　　MLPerf/ML Commons和AI.benchmark.com都是AI芯片標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試的工具。其中，ML Commons 主要提供芯片精度、速度和效率相關(guān)的測(cè)量規(guī)則，這對(duì)了解芯片處理不同 AI 算法的能力非常重要，如前所述，在不了解精度目標(biāo)的情況下，我們是無(wú)法在芯片進(jìn)度與壓縮程度之間做取舍的。此外，ML Commons還提供通用數(shù)據(jù)集和最佳實(shí)踐。

　　位于瑞士蘇黎世的 Computer Vision Lab 還提供移動(dòng)處理器的基準(zhǔn)測(cè)試，并發(fā)布其結(jié)果和芯片要求以及支持重復(fù)使用的其它信息。包括 78 項(xiàng)測(cè)試和超過180 個(gè)性能方面的基準(zhǔn)。

　　斯坦福大學(xué)的DAWNBench為ML Commons的工作提供了支持。這些測(cè)試不僅能解決 AI 性能評(píng)分問題，還解決了處理器執(zhí)行 AI 算法訓(xùn)練和推理的總時(shí)間問題。這解決了芯片設(shè)計(jì)工程目標(biāo)的一個(gè)關(guān)鍵問題，即降低整體擁有成本或總擁有成本。AI 處理時(shí)間，決定了云端 AI 租賃或邊緣計(jì)算的芯片所有權(quán)，對(duì)于組織的整體 AI 芯片策略更有用。

　　另一種流行的基準(zhǔn)測(cè)試方法，是利用常見的開源圖形和模型，但這些模型也有一些弊端。例如，ResNET-50 的數(shù)據(jù)集為 256x256，但這不一定是最終應(yīng)用中可能使用的分辨率。其次，該模型較舊，層數(shù)少于許多較新模型。第三，模型可以由處理器 IP 供應(yīng)商手動(dòng)優(yōu)化，但這并不代表系統(tǒng)將如何與其他模型一起執(zhí)行。除了ResNET-50之外，還有大量可用的開源模型，通過它們可以看到該領(lǐng)域的最新進(jìn)展，并為性能提供良好的指標(biāo)。

　　最后，針對(duì)特定應(yīng)用的定制圖形和模型變得越來(lái)越普遍。理想情況下，這是對(duì) AI 芯片進(jìn)行基準(zhǔn)測(cè)試，以及合理優(yōu)化以降低功耗和提高性能的最佳方案。

　　由于SoC開發(fā)者各有不同的目標(biāo)，有些是應(yīng)用于高性能領(lǐng)域，有的是用于較低性能的領(lǐng)域，還有的是通用AI領(lǐng)域，以及ASIC領(lǐng)域。對(duì)于不知道需要按照哪種 AI 模型進(jìn)行優(yōu)化的 SoC，自定義模型和開放可用模型的良好組合，可以很好地指示性能和功耗。這種組合在當(dāng)今市場(chǎng)中最常用。然而，在 SoC 進(jìn)入市場(chǎng)后，上述較新的基準(zhǔn)測(cè)試標(biāo)準(zhǔn)的出現(xiàn)，似乎在比較中具有一定的相關(guān)性。

　　邊緣AI芯片設(shè)計(jì)之前的評(píng)估尤為重要

　　現(xiàn)在越來(lái)越多的數(shù)據(jù)計(jì)算在邊緣發(fā)生，鑒于邊緣優(yōu)化的復(fù)雜性，當(dāng)今的 AI 解決方案必須協(xié)同設(shè)計(jì)軟件和芯片。為此，它們必須利用正確的基準(zhǔn)測(cè)試技術(shù)，同時(shí)還必須有工具支持，從而使設(shè)計(jì)人員能夠準(zhǔn)確探索系統(tǒng)、SoC 或半導(dǎo)體 IP 的不同優(yōu)化方式，調(diào)查工藝節(jié)點(diǎn)、存儲(chǔ)器、處理器、接口等。

　　在這方面，新思科技可針對(duì)特定領(lǐng)域提供有效的工具，來(lái)對(duì) IP、SoC 和更廣泛的系統(tǒng)進(jìn)行模擬、原型驗(yàn)證和基準(zhǔn)測(cè)試。

　　首先，新思科技HAPS? 原型驗(yàn)證解決方案通常用于展示不同處理器配置的能力和權(quán)衡。該工具能夠檢測(cè)出除了處理器之外， AI 系統(tǒng)的帶寬在什么情況下開始成為瓶頸?傳感器輸入(通過 MIPI)或存儲(chǔ)器訪問(通過 LPDDR)在處理不同任務(wù)時(shí)的最佳帶寬是多少?

　　再一個(gè)，新思科技ZeBu? 仿真系統(tǒng)可用于功率模擬。ZeBu Empower可采用AI、5G、數(shù)據(jù)中心和移動(dòng)SoC應(yīng)用的真實(shí)軟件工作負(fù)載，在數(shù)小時(shí)內(nèi)完成功耗驗(yàn)證周期。此仿真系統(tǒng)已被證明優(yōu)于 AI 工作負(fù)載的模擬和/或靜態(tài)分析。

　　用戶還可以通過新思科技的 Platform Architect 探索 SoC 設(shè)計(jì)的系統(tǒng)層面。Platform Architect 最初用于內(nèi)存、處理性能和功耗探索，最近越來(lái)越多地用于了解 AI 的系統(tǒng)級(jí)性能和功耗。使用預(yù)構(gòu)建的LPDDR 、ARC處理器模型用于 AI、存儲(chǔ)器等，可以進(jìn)行靈敏度分析，以確定最佳設(shè)計(jì)參數(shù)。

　　新思科技擁有一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì)，負(fù)責(zé)開發(fā)從 ASIP Designer 到 ARC 處理器的 AI 處理解決方案。包括內(nèi)存編譯器在內(nèi)的經(jīng)過驗(yàn)證的基礎(chǔ) IP 產(chǎn)品組合已廣泛應(yīng)用于 AI SoC。AI 應(yīng)用的接口 IP 范圍從傳感器輸入到 I3C 和 MIPI，再到通過 CXL、PCIe 和 Die to Die 解決方案的芯片到芯片連接，以及通過以太網(wǎng)的網(wǎng)絡(luò)功能。

　　總結(jié)

　　軟件和芯片協(xié)同設(shè)計(jì)已經(jīng)成為現(xiàn)實(shí)，選擇正確的工具和專業(yè)知識(shí)至關(guān)重要。新思科技正在利用專業(yè)知識(shí)、服務(wù)和成熟的IP，為客戶提供最適合的方法，在不斷變化的情況下優(yōu)化 AI 芯片。