国产成人无码精品午夜福利a,国产在线精品免费一区,国产AV日韩AV天堂久久

　　ChatGPT一經(jīng)發(fā)布便引起國(guó)內(nèi)外強(qiáng)烈反響，成為史上用戶數(shù)增長(zhǎng)最快的消費(fèi)者應(yīng)用，也讓人工智能再次回到大眾關(guān)注的焦點(diǎn)。然而，高昂的部署成本已然是人工智能進(jìn)入市場(chǎng)的主要障礙：從小模型到大模型，過去10年內(nèi)AI算法對(duì)算力的需求提升了40萬倍;大模型開發(fā)和訓(xùn)練一次的成本便需1200萬美元。各大公司為籌建數(shù)據(jù)中心斥巨資搶購GPU的新聞不時(shí)見諸報(bào)端，越來越多的人希望尋找一種新方案，扭轉(zhuǎn)這種高投入低效率的現(xiàn)狀。

　　存算一體作為新一代計(jì)算技術(shù)，在數(shù)據(jù)運(yùn)算和存儲(chǔ)過程中實(shí)現(xiàn)了一體化設(shè)計(jì)，旨在突破“存儲(chǔ)墻”實(shí)現(xiàn)超低功耗和更強(qiáng)的并行計(jì)算能力，被認(rèn)為是后摩爾時(shí)代最重要的發(fā)展方向之一。目前，存算一體技術(shù)在國(guó)內(nèi)外企業(yè)的不懈努力下已經(jīng)實(shí)現(xiàn)初步的商業(yè)化應(yīng)用?；蛟S數(shù)年之后，存算一體芯片就將進(jìn)入千行百業(yè)，為人工智能的大規(guī)模應(yīng)用提供不竭的算力支撐。

　　AI潮開啟，算力面臨瓶頸

　　自1956年美國(guó)達(dá)特茅斯學(xué)院首次提出人工智能的概念以來，AI技術(shù)不斷獲得突破和快速發(fā)展，對(duì)算力的需求也在不斷增加。2006年以前，AI算法尚未出現(xiàn)突破性進(jìn)展，AI的訓(xùn)練數(shù)據(jù)多以小數(shù)據(jù)為主，這一階段AI對(duì)算力的需求主要由CPU提供。2006年之后，隨著AI算法在深度學(xué)習(xí)上獲得突破，特別是谷歌旗下DeepMind團(tuán)隊(duì)開發(fā)的AI系統(tǒng)AlphaGo戰(zhàn)勝韓國(guó)棋手李世石，引發(fā)全球AI熱潮，AI領(lǐng)域?qū)τ谒懔Φ男枨缶驮诓粩嘣黾?。研究人員發(fā)現(xiàn)，相比于CPU，GPU具備并行計(jì)算特性，在深度學(xué)習(xí)等人工智能先進(jìn)算法所需的“暴力計(jì)算”場(chǎng)景中更為高效，使得研究機(jī)構(gòu)和AI公司開始廣泛采用GPU進(jìn)行人工智能領(lǐng)域的研究和應(yīng)用。

　　2022年11月，OpenAI公司推出AI大模型ChatGPT，再次引發(fā)全球AI大模型發(fā)展浪潮。這一趨勢(shì)進(jìn)一步加大了AI領(lǐng)域?qū)λ懔Φ男枨蟆Ｄ壳?，英偉達(dá)集成H100的計(jì)算卡已經(jīng)達(dá)到一卡難求地步，人們預(yù)測(cè)GPT-4可能在10000到25000張A100上進(jìn)行訓(xùn)練，Meta、特斯拉、Stability AI等都投入到對(duì)高性能GPU的搶購之中。這一形勢(shì)推動(dòng)了AI芯片的投資和發(fā)展。

　　不過，當(dāng)前主流AI芯片在為大模型提供算力支持時(shí)的表現(xiàn)并不完美，尚存很多不足之處。記者采訪北京大學(xué)集成電路學(xué)院院長(zhǎng)蔡一茂時(shí)，他便指出，AIGC等人工智能新興技術(shù)的發(fā)展離不開算力，算力的基礎(chǔ)是人工智能芯片。當(dāng)前人工智能技術(shù)的快速更新迭代對(duì)硬件部署提出了多個(gè)挑戰(zhàn)。

　　首先是算力規(guī)模與算力密度上的需求。大模型的出現(xiàn)促使AI對(duì)大規(guī)模芯片算力的需求更加強(qiáng)烈，按照傳統(tǒng)技術(shù)路線簡(jiǎn)單堆砌芯片無法實(shí)現(xiàn)期待的算力規(guī)模增長(zhǎng)，需要從提高算力密度和算力集成度等多個(gè)角度同時(shí)解決問題。其次是芯片能效問題變得更加突出。芯片高功耗導(dǎo)致的散熱等問題，不僅是芯片算力提升的主要障礙，也導(dǎo)致了大模型訓(xùn)練與推理的成本巨大。當(dāng)前AI芯片能效依然低下，大模型每次訓(xùn)練和推斷的電費(fèi)成本昂貴，導(dǎo)致當(dāng)前大模型的應(yīng)用經(jīng)濟(jì)性較低。

　　第三是AI芯片在執(zhí)行計(jì)算密集型任務(wù)時(shí)面臨的“內(nèi)存墻”問題。這導(dǎo)致計(jì)算芯片的功耗和性能都受限于處理器和存儲(chǔ)器之間的數(shù)據(jù)搬運(yùn)，嚴(yán)重限制了AI芯片在計(jì)算規(guī)模、密度、效率等方面的提升。此外，AI芯片的通用性和可編程性趨勢(shì)也值得關(guān)注。目前大模型技術(shù)算法有趨同的發(fā)展趨勢(shì)，以Transformer為代表的網(wǎng)絡(luò)模型正在成為主流。定制化的AI芯片將難以滿足AI產(chǎn)業(yè)的發(fā)展，芯片的通用性和可編程性十分重要。

　　性能優(yōu)勢(shì)明顯，存算一體將成解決方案

　　其實(shí)，GPU并非AI大模型部署的唯一算力擔(dān)當(dāng)。廣義而言，AI芯片指的是專門用于處理人工智能應(yīng)用中大量計(jì)算任務(wù)的模塊，也就是說面向人工智能領(lǐng)域的芯片均被稱為AI芯片。從技術(shù)架構(gòu)來看，目前用于AI處理的主流芯片主要包括GPU、FPGA、ASIC，以及存算一體芯片等。其中，GPU目前被運(yùn)用的最為廣泛，如圖像渲染、特效制作等，在數(shù)據(jù)中心、超級(jí)計(jì)算機(jī)等大型計(jì)算設(shè)施中均在采用。FPGA是一種靈活可編程的硬件平臺(tái)，具備較高的計(jì)算性能和可定制性等優(yōu)點(diǎn)，在AI推理應(yīng)用中表現(xiàn)較為出色。但這兩種芯片也存在上面所述的問題。ASIC是針對(duì)用戶對(duì)特定電子系統(tǒng)的需求而設(shè)計(jì)的專用集成電路，是固定算法最優(yōu)化設(shè)計(jì)的產(chǎn)物。在大模型技術(shù)算法趨同的情況下，定制化AI芯片整體市場(chǎng)規(guī)模有可能受到限制。

　　存算一體芯片被認(rèn)為是下一代芯片，雖然目前還受限于成熟度，應(yīng)用范圍不夠廣泛，但未來卻有著極大的發(fā)展空間。對(duì)此，蔡一茂便指出，新興的存算一體和近存計(jì)算技術(shù)直接在存儲(chǔ)器內(nèi)部或附近進(jìn)行計(jì)算，通過將計(jì)算和存儲(chǔ)功能融合在一起提高數(shù)據(jù)處理和計(jì)算的效率和成本。在大模型時(shí)代，存算一體技術(shù)有望大幅度提升AI芯片的計(jì)算密度和能效，緩解AI 芯片性能與功耗之間的矛盾，提升大模型部署的經(jīng)濟(jì)性。特別是針對(duì)大模型的推理，存算一體保持權(quán)重的特點(diǎn)與大模型中大規(guī)模的參數(shù)部署需求相匹配，可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場(chǎng)景之一。

　　知存科技創(chuàng)始人、CEO王紹迪在接受記者采訪時(shí)也表示，傳統(tǒng)芯片是先把數(shù)據(jù)從存儲(chǔ)系統(tǒng)中讀取出來，放到乘、加法器當(dāng)中做計(jì)算，然后再把計(jì)算結(jié)果傳回到存儲(chǔ)系統(tǒng)當(dāng)中。這種大規(guī)模的數(shù)據(jù)遷移導(dǎo)致了帶寬瓶頸和功耗浪費(fèi)。存算一體則從計(jì)算架框的根本上避免了這種情況發(fā)生，同時(shí)帶來一系列性能優(yōu)勢(shì)。

　　首先是運(yùn)算的性能更高。存算一體芯片的計(jì)算能力取決于存儲(chǔ)器的容量規(guī)模。所有電子設(shè)備當(dāng)中都會(huì)集成存儲(chǔ)器，存儲(chǔ)與計(jì)算相伴而行，有運(yùn)算的地方就需要對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)，比如可穿戴手環(huán)中可能會(huì)集成2M的SD卡，筆記本電腦中會(huì)安裝1TB的NAND Flash，數(shù)據(jù)中心的閃存芯片可能會(huì)達(dá)到256TB。如果采用存算一體芯片，隨著存儲(chǔ)容量規(guī)模的提高，其運(yùn)算能力也會(huì)隨之提高。

　　其次是功耗更低。同樣，由于數(shù)據(jù)傳輸路徑的優(yōu)化，存算一體技術(shù)在提高傳輸效率的同時(shí)，節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗，帶來更好的能效比、低功耗，在相同算力下，AI部分能效比將有2-3個(gè)數(shù)量級(jí)的提升，更低散熱成本，更高可靠性。

　　第三是成本更低。單位算力成本遠(yuǎn)低于傳統(tǒng)計(jì)算芯片。同時(shí)，存算一體可以采用更成熟的制造工藝，大算力芯片往往需要采用先進(jìn)工藝，這使存算一體芯片的晶圓成本低得多。再考慮到配套的外圍芯片、元器件等因素，整個(gè)系統(tǒng)成本將有5倍左右降低。正是因?yàn)檫@些基于基礎(chǔ)架構(gòu)革新所帶來的性能提升，存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn)。隨著存算一體芯片逐漸進(jìn)入市場(chǎng)，其將為人工智能的大規(guī)模應(yīng)用奠定基礎(chǔ)。

　　從終端到云端，未來發(fā)展讓人期待

　　現(xiàn)在的AIGC不僅是云端，在終端側(cè)也有很多企業(yè)推動(dòng)其應(yīng)用發(fā)展。云端方面，越來越多大模型產(chǎn)品問世，僅我國(guó)10億級(jí)參數(shù)規(guī)模以上大模型已超80個(gè)，其中不乏科技巨頭發(fā)布的產(chǎn)品，如百度的“文心一言”、阿里云的“通義千問”、華為的“盤古大模型”等;終端方面，邊緣計(jì)算實(shí)現(xiàn)了計(jì)算資源和服務(wù)的下沉，能夠有效降低交互延遲、緩解數(shù)據(jù)傳輸帶寬壓力，目前高通推出混合式AI的概念、蘋果也在開發(fā)“AppleGPT”AI模型，未來將呈現(xiàn)AIGC技術(shù)從云端向邊緣延伸的趨勢(shì)。

　　在這樣的大背景下，存算一體也將沿著云端與終端雙向并行的路徑持續(xù)發(fā)展。王紹迪強(qiáng)調(diào)，存算一體芯片的適用領(lǐng)域其實(shí)十分寬廣。如果按終端和云端兩個(gè)領(lǐng)域劃分的話，從終端側(cè)的可穿戴設(shè)備、智能手機(jī)、無人機(jī)、安防，到規(guī)模更大的邊緣服務(wù)器、自動(dòng)駕駛，再到云端的AIGC大模型應(yīng)用，存算一體芯片都可以去做。

　　2022年，知存科技率先量產(chǎn)全球首顆存算一體SoC芯片WTM2101。一年左右時(shí)間，WTM2101已在TWS耳機(jī)、助聽器、AR眼鏡、智能家居控制等終端設(shè)備中實(shí)現(xiàn)商用，提供語音、輕量級(jí)視頻等AI處理。

　　在終端應(yīng)用中，AI計(jì)算需要高算力下的低功耗。WTM-2系列就定位于小功率的電池供電場(chǎng)景，但可以提供一定強(qiáng)度的AI算力。在極低功耗下，傳統(tǒng)芯片技術(shù)很難滿足深度學(xué)習(xí)模型的運(yùn)算需求，存算一體卻在一定程度上可以提供上算力支持。

　　今年知存科技將推出具有更高算力的WTM-8系列芯片。該系列芯片將主要面向移動(dòng)智能終端如手機(jī)、XR、無人機(jī)等，覆蓋2D(1080P-8K)與3D視頻處理場(chǎng)景。與WTM2101相比，WTM-8系列芯片采用了第二代3D存內(nèi)計(jì)算架構(gòu)，能夠提供算力至少24Tops，計(jì)算精度達(dá)12-bit，目前已經(jīng)完成投片，預(yù)計(jì)今年下半年或明年年初就可以推向市場(chǎng)。

　　云端市場(chǎng)也是存算一體的發(fā)展方向。王紹迪透露，知存科技除上述兩個(gè)系列的產(chǎn)品之外，還在規(guī)劃具備更高的性能的芯片系列，可用于AI服務(wù)器，應(yīng)對(duì)大模型市場(chǎng)的發(fā)展需求。一旦該系列芯片發(fā)布，知存科技的產(chǎn)品線布局將變得更加厚實(shí)且合理，從低性能到高性能，從終端側(cè)到云端計(jì)算，都有著相應(yīng)的產(chǎn)品覆蓋。

　　目前，全球范圍內(nèi)無論學(xué)術(shù)界還是工業(yè)界均對(duì)存算一體投入大量資源進(jìn)行開發(fā)。不過蔡一茂也指出，在大模型到來之前，存算一體研究多數(shù)以零散的技術(shù)攻關(guān)為主，缺乏面向大算力方向的整體布局，也缺乏主導(dǎo)的應(yīng)用需求牽引，因此距離大規(guī)模進(jìn)入市場(chǎng)還有一定距離。但大模型是值得期待的存算一體應(yīng)用場(chǎng)景，其對(duì)算力能效和密度的強(qiáng)烈需求正是存算一體的優(yōu)勢(shì)所在。面向大模型部署，從業(yè)者需要對(duì)存算一體進(jìn)行體系化布局，從算法、框架、編譯器、工具鏈、指令集、架構(gòu)、電路等跨層次協(xié)同設(shè)計(jì)，形成全棧式體系、工具鏈及生態(tài)鏈。大模型的到來必將極大推動(dòng)存算一體的技術(shù)落地，其未來應(yīng)用潛力和部署規(guī)模都讓人期待。