多年來,計算機硬件一直是一個不太活躍的市場。占主導地位的x86微處理器架構已經(jīng)達到了通過小型化可以實現(xiàn)的性能增益的極限,因此制造商主要關注將更多的內(nèi)核封裝到芯片中。
對于快速發(fā)展的機器學習和深度學習來說,GPU就是救星。GPU最初是為圖形處理設計的,它可以有數(shù)千個小內(nèi)核,非常適合AI訓練所需的并行處理能力。
人工智能的本質(zhì)是得益于并行處理,大約10年前,人們發(fā)現(xiàn),設計用于在屏幕上顯示像素的GPU很適合這一點,因為它們是并行處理引擎,可以在其中放入很多核心。
這對英偉達公司來說是個好消息,該企業(yè)的市值從2015年的不到180億美元飆升至去年市場收縮之前的7350億美元。直到最近,該企業(yè)還幾乎獨攬了整個市場。但許多競爭對手正試圖改變這種局面。
在人工智能工作負載方面,到目前為止主要是英偉達的GPU,但用戶正在尋找可以將其提升到新水平的技術,隨著高性能計算和AI工作負載的不斷融合,我們將會看到更多種類的加速器出現(xiàn)。
加速推動新型硬件的發(fā)展
大型芯片制造商并沒有停滯不前。三年前,英特爾收購了以色列芯片制造商哈瓦那實驗室,并讓這家企業(yè)成為其人工智能開發(fā)工作的重點。
哈瓦那去年春天推出的Gaudi2訓練優(yōu)化處理器和Greco推理處理器,據(jù)稱速度至少是英偉達旗艦處理器A100的兩倍。
今年3月,英偉達推出了擁有800億個晶體管的H100加速器GPU,并支持該公司的高速NVLink互連。它具有一個專用引擎,與上一代相比,它可以將自然語言處理中,使用的基于Transformer的模型的執(zhí)行速度提高六倍。最近使用MLPerf基準的測試顯示,在大多數(shù)深度學習測試中,H100優(yōu)于Gaudi2.英偉達也被認為在其軟件堆棧中具有優(yōu)勢。
許多用戶選擇GPU,因為他們可以進入集中式軟件的生態(tài)系統(tǒng),英偉達之所以如此成功,是因為他們建立了生態(tài)系統(tǒng)戰(zhàn)略。
超規(guī)模云計算公司甚至比芯片制造商更早進入這一領域。谷歌有限責任公司的Tensor處理單元是一種專用集成電路,于2016年推出,目前已經(jīng)是第四代。亞馬遜網(wǎng)絡服務公司在2018年推出了面向機器學習的推理處理加速器,聲稱其性能是GPU加速實例的兩倍多。
上個月,該公司宣布了基于其Trainium芯片的云實例的普遍可用性,稱在深度學習模型訓練場景中,以可比的性能,它們的成本比基于GPU的EC2低50%。兩家企業(yè)的努力主要集中在通過云服務交付。
雖然成熟的市場領導者專注于增量改進,但許多更有趣的創(chuàng)新正在構建AI專用硬件的初創(chuàng)企業(yè)中進行。根據(jù)數(shù)據(jù)顯示,在去年投資于芯片初創(chuàng)公司的18億美元風險投資家中,他們吸引了大部分的投資,是2017年的兩倍多。
他們正在追逐一個可能帶來巨大收益的市場,預計到2030年,全球人工智能芯片市場將從2020年的80億美元增長到近1950億美元。
更小、更快、更便宜
很少有初創(chuàng)公司想要取代x86CPU,但這是因為這樣做的杠桿相對較小。芯片不再是瓶頸,不同芯片之間的通信才是一個巨大的瓶頸。
CPU執(zhí)行低級操作,如管理文件和分配任務,但純粹的CPU專用方法不再適用于擴展,CPU設計用于從打開文件到管理內(nèi)存緩存的各種活動,必須是通用的。這意味著它不太適合人工智能模型訓練所需的大規(guī)模并行矩陣算術運算。
市場上的大多數(shù)活動都圍繞著協(xié)處理器加速器、專用集成電路,以及在較小程度上可以針對特定用途進行微調(diào)的現(xiàn)場可編程門陣列。
每個人都在遵循谷歌的說法,即開發(fā)協(xié)同處理器,與CPU協(xié)同工作,通過將算法硬編碼到處理器中,而不是作為軟件運行,來針對AI工作量的特定部分。
加速度方程
加速度方程用于開發(fā)所謂的圖形流處理器,用于自動駕駛汽車和視頻監(jiān)控等邊緣計算場景。完全可編程芯片組承擔了CPU的許多功能,但在任務級并行和流執(zhí)行處理方面進行了優(yōu)化,僅使用7瓦的電源。
體系結構基于圖數(shù)據(jù)結構,其中對象之間的關系表示為連接的節(jié)點和邊。每個機器學習框架都使用圖形概念,在整個芯片的設計中都保持著同樣的語義。可以執(zhí)行包括CMM但包含自定義節(jié)點的整個圖。我們可以在這些圖形中加速任何平行的東西。
其基于圖形的架構解決了GPU和CPU的一些容量限制,并能更靈活地適應不同類型的AI任務。它還允許開發(fā)人員將更多的處理轉移到邊緣,以便更好地推斷。如果企業(yè)能對80%的處理過程進行預處理,就能節(jié)省大量時間和成本。
這些應用可以讓智能更接近數(shù)據(jù),實現(xiàn)快速決策。大多數(shù)的目標是推斷,這是AI模型的現(xiàn)場部署,而不是更計算密集型的訓練任務。
某企業(yè)正在開發(fā)一種使用內(nèi)存計算的芯片,以減少延遲和對外置存儲設備的需求。其人工智能平臺將提供靈活性和運行多個神經(jīng)網(wǎng)絡的能力,同時保持較高的準確性。
其數(shù)據(jù)處理單元系列為大規(guī)模并行處理器陣列,擁有可伸縮的80核處理器,能夠并行執(zhí)行數(shù)十個任務。關鍵創(chuàng)新是在每個處理元素內(nèi)部緊密集成一個張量協(xié)處理器,并支持元素之間的直接張量數(shù)據(jù)交換,以避免內(nèi)存帶寬瓶頸。這可以實現(xiàn)高效的AI應用加速,因為預處理和后處理是在相同的處理元素上執(zhí)行的。
而有些企業(yè)專注于利用縮略圖大小的芯片組推斷深度學習模型,該企業(yè)稱該芯片組每秒可以執(zhí)行26萬億次操作,而消耗的電力不到3瓦。在某種程度上,它是通過將用于訓練深度學習模型的每個網(wǎng)絡層分解為所需的計算元素,并將它們整合在一個專門為深度學習構建的芯片上實現(xiàn)的。
板載內(nèi)存的使用進一步減少了開銷,整個網(wǎng)絡都在芯片內(nèi)部,更沒有外部存儲器,這意味著芯片可以更小,消耗更少的能量。該芯片可以在接近實時的高清圖像上運行深度學習模型,使單個設備能夠同時在四條車道上運行自動車牌識別。
硬件目前的發(fā)展
一些初創(chuàng)企業(yè)采取的更多的是登月的方法,旨在重新定義人工智能模型訓練和運行的整個平臺。
例如,針對機器學習進行了優(yōu)化的人工智能處理器,在接近9.000個并發(fā)線程和900兆處理器內(nèi)內(nèi)存的情況下,每秒可以管理高達350萬億次處理操作。綜合計算系統(tǒng)被稱為Bow-2000IPU機器,據(jù)稱可以每秒進行1.4千萬億次運算。
其不同之處在于其三維堆疊晶片設計,使其能夠在一個芯片中封裝近1500個并行處理核。所有這些企業(yè)都能夠運行完全不同的業(yè)務。這與廣泛使用的GPU架構不同,后者更傾向于對大數(shù)據(jù)塊運行相同的操作。
再比如,有些企業(yè)正在解決互連問題,也就是集成電路中連接元件之間的布線。隨著處理器達到理論上的最高速度,移動比特的路徑越來越成為瓶頸,特別是當多個處理器同時訪問內(nèi)存時,如今的芯片不再是互連的瓶頸。
該芯片在一個人工智能平臺中使用納米光子波導,該平臺稱其在低能量封裝中結合了高速和大帶寬。它本質(zhì)上是一個光通信層,可以連接多個其他處理器和加速器。
人工智能結果的質(zhì)量來自于同時支持非常龐大和復雜的模型的能力,同時實現(xiàn)非常高的吞吐量響應,這兩者都是可以實現(xiàn)的。這適用于任何可以使用線性代數(shù)完成的操作,包括大多數(shù)人工智能的應用。
人們對其集成硬件和軟件平臺的期望極高。而企業(yè)則抓住了這一要點,例如研發(fā)平臺可以在從數(shù)據(jù)中心到邊緣的任何地方,運行人工智能和其他數(shù)據(jù)密集型應用。
而硬件平臺使用專為機器和深度學習設計的定制7納米芯片。其可重新配置的數(shù)據(jù)流架構運行AI優(yōu)化的軟件堆棧,其硬件架構旨在最小化內(nèi)存訪問,從而減少互連瓶頸。
處理器更是可以重新配置,以適應AI或高性能計算HPC工作負載,處理器被設計為以更高的性能水平處理大規(guī)模矩陣操作,這對工作量變化的客戶來說是一個加分項。
雖然CPU、GPU甚至FPGA都非常適合于事務系統(tǒng)和ERP等確定性軟件,但是,機器學習算法是概率的,這意味著結果是不提前知道的,這需要一種完全不同的硬件基礎設施。
平臺通過將1tb的高速雙數(shù)據(jù)速率同步存儲器連接到處理器上,最大限度地減少了互連問題,基本上可以用快20倍的片上存儲器來掩蓋DDR控制器的延遲,所以這對用戶來說是透明的,這使我們能夠訓練更高參數(shù)計數(shù)的語言模型和最高分辨率的圖像,而無需平鋪或下采樣。
平鋪是一種用于圖像分析的技術,它通過將圖像分割成更小的塊,分析每個塊,然后重新組合,來減少對計算能力的需求。下采樣在訓練數(shù)據(jù)的隨機子集上訓練模型,以節(jié)省時間和計算資源。其結果是一個系統(tǒng),不僅比基于GPU的系統(tǒng)更快,而且能夠解決更大的問題。
總結
由于許多企業(yè)都在為同樣的問題尋求解決方案,一場洗牌是不可避免的,但沒有人預計這種洗牌會很快到來。GPU將存在很長一段時間,可能仍然是人工智能訓練和推斷項目中最具成本效益的解決方案,而這些項目不需要極端性能。
盡管如此,隨著高端市場的模型越來越大、越來越復雜,對特定功能架構的需求也越來越大。從現(xiàn)在開始的三到五年內(nèi),我們可能會看到GPU和AI加速器的多樣性,這是我們能夠擴大規(guī)模以滿足本十年結束及以后需求的唯一途徑。
預計領先的芯片制造商將繼續(xù)做他們擅長的事情,并逐步建立現(xiàn)有的技術。許多企業(yè)還將效仿英特爾,收購專注于人工智能的初創(chuàng)公司。高性能計算界也在關注人工智能的潛力,以幫助解決大規(guī)模模擬和氣候建模等經(jīng)典問題。
高性能計算生態(tài)系統(tǒng)總是在尋找他們可以吸收的新技術,以保持領先地位,他們正在探索人工智能能帶來什么。而潛伏在幕后的是量子計算,這是一項仍停留在理論層面而非實際層面的技術,但它有可能徹底改變計算方式。
無論哪種新架構受到青睞,人工智能的激增無疑已經(jīng)重新點燃了人們對硬件創(chuàng)新潛力的興趣,從而開辟了軟件領域的新領域。