英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

時間:2020-06-30

來源:芯東西

導語:2020年的突發(fā)事件撥亂了太多產業(yè)的陣腳,AI芯片產業(yè)也似乎熱度漸熄。一家英國AI芯片創(chuàng)企卻在這一時期,穩(wěn)穩(wěn)地切入國內科技巨頭阿里和百度的生態(tài)圈。

  2020年的突發(fā)事件撥亂了太多產業(yè)的陣腳,AI芯片產業(yè)也似乎熱度漸熄。一家英國AI芯片創(chuàng)企卻在這一時期,穩(wěn)穩(wěn)地切入國內科技巨頭阿里和百度的生態(tài)圈。

  就在今年5月,成立剛滿四年的英國初創(chuàng)公司Graphcore分別公布和阿里巴巴、百度合作的新動向。阿里宣布Graphcore支持ODLA的接口標準,百度宣布Graphcore成為飛槳硬件生態(tài)圈的創(chuàng)始成員之一。

  Graphcore成立于2016年,總部位于英國布里斯托,創(chuàng)始人為NigelToon和SimonKnowles。實際上,兩位創(chuàng)始人在2002年還成立了一家名為Icera的3G蜂窩芯片公司,市值4.35億美元,并在2016年以3.67億美元賣身英偉達。

  2019年,Graphcore的公司員工數量已增加一倍,并在北京設立了中國區(qū)銷售和支持中心。

  今年5月,在英國IntelligenceHealth峰會上,微軟機器學習科學家分享用Graphcore的IPU芯片訓練微軟COVID-19影像分析算法CXR,能夠在30分鐘之內完成在NVIDIAGPU上需要5個小時的訓練工作量。

  也是在這個月,英偉達(NVIDIA)為AI和數據科學打造的最強GPUA100橫空出世,給布局云端AI芯片市場的其他公司帶來新的壓力。

  不過Graphcore顯得相對淡定。Graphcore高級副總裁兼中國區(qū)總經理盧濤相信,即便是Graphcore第一代IPU產品也不會輸于A100,今年他們還將發(fā)布下一代7nm處理器。

  Graphcore的自信并非空穴來風,憑借創(chuàng)新芯片架構IPU,這家成立剛滿四年的英國初創(chuàng)公司,不僅有DeepMind聯(lián)合創(chuàng)始人DemisHassabis、劍橋大學教授兼Uber首席科學家ZoubinGhahramani、加州大學伯克利教授PieterAbbeel、OpenAI多位聯(lián)合創(chuàng)始人等多位AI大牛為其背書,還吸引到微軟、博世、戴爾、三星、寶馬等巨頭注資。

  這樣一個在AI芯片界猛刷存在感的明星創(chuàng)企,背后有著怎樣的底氣?

  近日,Graphcore高級副總裁兼中國區(qū)總經理盧濤、Graphcore銷售總監(jiān)朱江第一次在中國詳盡地介紹了Graphcore的核心芯片架構及產品、配套軟件工具鏈,并分享了其芯片在五類垂直場景的應用實例及性能表現(xiàn)。

  一、英國小鎮(zhèn)里誕生的AI芯片獨角獸

  2012年1月,雪后的英國小鎮(zhèn)巴斯,NigelToon與SimonKnowles正在討論一個改變AI芯片架構的創(chuàng)新設想。

  經過四年模擬了數百種芯片布局的計算機測試方法,兩人于2016年6月在英國布里斯托成立AI芯片公司Graphcore,此后繼續(xù)處于神秘的研發(fā)狀態(tài)。

  知名資本伸出的橄欖枝,使得這家創(chuàng)企始終處于聚光燈下,寶馬、博世、戴爾、微軟、三星等巨頭紛紛參與投資,至今Graphcore累計融資超過4.5億美元,整體估值約為19.5億美元。

  不僅如此,數位AI大牛對其IPU芯片架構贊譽有加。

  英國半導體之父、Arm聯(lián)合創(chuàng)始人Hermann爵士曾評價說:“在計算機歷史上只發(fā)生過三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命?!?/p>

  AI教父GeoffHinton教授也說過:“我們需要不同類型的計算機來處理一些新的機器學習的系統(tǒng)?!彼赋鯥PU就是這樣一個系統(tǒng)。

  到2019年11月,Graphcore潛心打造的IPU產品官宣量產,隨后與微軟、百度、Qwant、Citadel、帝國理工學院、牛津大學等多個合作伙伴、云計算廠商、研究實驗室以及高校等展開了相關合作。

  如今,Graphcore所做的產品包括了硬件、軟件和IPU的系統(tǒng)解決方案。

  IPU是Graphcore專為機器智能設計的創(chuàng)新處理器架構,宣稱在現(xiàn)有及下一代模型上,性能遠超NVIDIAV100GPU。

  例如它能將自然語言處理(NLP)處理速度可提升20%-50%,為圖像分類帶來6倍的吞吐量而且是更低的時延,在一些金融模型方面訓練速度能夠提高26倍以上。

  目前IPU已實現(xiàn)量產,通過訪問微軟Azure等云計算平臺,或者購買戴爾服務器等產品,均可獲取IPU資源。在國內,Graphcore也正在與金山云合作,擬上線一個針對中國開發(fā)者和創(chuàng)新者的云業(yè)務。

  除了芯片產品走向落地,在過去6-12個月,Graphcore在全球版圖快速鋪開,迄今有全球員工450人,分布在北京、上海、深圳、臺北、布里斯托、倫敦、劍橋、挪威、奧斯陸、西雅圖、帕拉奧圖、紐約、奧斯汀、東京、首爾等地。

  二、以計算圖為表征的創(chuàng)新AI芯片架構

  Graphcore的自研芯片架構誕生的背景,源于過去幾年AI算法模型規(guī)模呈指數級增長,需要更適宜的全新處理器架構。

  相較傳統(tǒng)科學計算或高性能計算(HPC),AI或者說機器智能有一些特性,包括大規(guī)模并行就散、稀疏數據結構、低精度計算,以及在訓練推理過程中的數據參數復用、靜態(tài)圖結構。

  GraphcoreIPU即是針對計算圖的處理設計而成,相比傳統(tǒng)智能處理器,IPU有三個核心區(qū)別:采用MIMD架構、所有模型在片內處理、可解決大規(guī)模并行計算處理器核之間的通信效率。

  具體而言,IPU采用大規(guī)模并行MIMD的處理核,拋棄了外部DDR,在片內做到300MB的大規(guī)模分布式片上SRAM,以打破內存帶寬對整體性能構成的瓶頸。

  相較CPU的DDR2子系統(tǒng)或是GPU的GDDR、HBM來說,IPU這一設計可將性能提升10-320倍。與訪問外存相比較,時延基本為1%,可忽略不計。

  當前已量產的IPU處理器為GC2,擁有256億個晶體管,在120瓦功耗下,混合精度算力可達125TFLOPS。

  GC2采用臺積電16nm工藝,片內包含1216個獨立的IPU處理器核心(Tile),整個GC2包含7296個線程,支持7296個程序并行運行。其內存帶寬為45TB/s、片上交換是8TB/s,片間IPU-Links為2.5Tbps。

  為了解決并行硬件的高效編程問題,IPU通過硬件支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分成了計算、同步、交換。

  這對軟件工程師和開發(fā)者來說非常易于編程,因為不必處理locks這個概念,也不必管任務具體在哪個核上運行。

  目前IPU是世界上目前第一款BSP處理器,BSP技術在谷歌、Facebook、百度之類的大規(guī)模數據中心均有使用。

  盧濤介紹說,IPU重點面向云端訓練以及對精度和延時要求高的推理場景,還有一些訓練和推理混合的場景。

  在精度方面,IPU當前不支持整數int8,主要支持FP16、FP32以及混合精度。

  當前應用較大的主流計算機視覺類模型以int8為主,而自然語言處理推理以FP16、FP32為主流數據格式,IPU使用FP16精度在ResNeXt、EfficientNet等新興視覺模型中性能功耗比同樣具有優(yōu)勢。

  未來,Graphcore的推進策略還是訓練和推理并行,但會更聚焦于一些對精度和時延要求更低、對吞吐量要求更高的場景。另外,他們也看到在推薦算法等應用出現(xiàn)一些希望同時實現(xiàn)訓練和推理的需求。

  三、軟件支持容器化部署,上線開發(fā)者社區(qū)

  硬件芯片架構是基礎,而軟件則是提升用戶體驗的關鍵利器。

  對于AI芯片來說,芯片研發(fā)出來只是第一部分,要能落地到產業(yè)中,還需展現(xiàn)出色的可移植性、可開發(fā)性、可部署性,能提供完善的工具鏈和豐富的軟件庫,可實現(xiàn)與主流機器學習框架無縫銜接,而整個鏈條全部打通需要非常大的投入。

  今年5月26日,全球知名科技分析機構MoorInsights&Strategy曾發(fā)表了一篇研究論文《Graphcore的軟件棧:BuildToScale》,其中寫道:“Graphcore是我們目前已知的唯一一家將產品擴展到囊括如此龐大的部署軟件和基礎架構套件的初創(chuàng)公司。”

  盧濤認為,對于AI芯片來說,真正商業(yè)化的衡量標準在于三點:是否有平臺化軟件的支持、是否有大規(guī)模商用部署軟件的支持、是否能實現(xiàn)產品化的部署。

  對此,Graphcore的PoplarSDK提供了完整的軟件堆棧來執(zhí)行其計算圖工具鏈,有四個主要特性:

  (1)開放且可擴展的Poplar庫:目前已提供750個高性能計算元素的50多種優(yōu)化功能,修改和編寫自定義庫。

  (2)直接部署:支持容器化部署,可快速啟動并且運行。標準生態(tài)方面,可支持Docker、Kubernetes,還有像微軟的Hyper-v等虛擬化的技術和安全技術。

  (3)機器學習框架支持:支持TensorFlow1、TensorFlow2、ONNX和PyTorch等標準機器學習框架,很快也將支持百度飛槳。

  (4)標準生態(tài)支持:通過微軟Azure部署、Kubernetes編排、Docker容器以及Hyper-V虛擬化和安全性,已生產就緒。

  目前PoplarSDK支持最主要的三個Linux操作系統(tǒng)發(fā)行版本:ubuntu、RedHatEnterpriseLinux、CentOS。

  ubuntu是迄今在AWS上最流行的一個操作系統(tǒng),RedHatEnterpriseLinux對一些企業(yè)級用戶做私有云非常重要,而CentOS在中國互聯(lián)網公司中應用廣泛。

  今年5月,Graphcore推出分析工具PopVisionGraphAnalyser,并上線Poplar開發(fā)者文檔和社區(qū)。

  使用IPU編程時,可借助PopVision可視化圖形展示工具來分析軟件運行的情況、效率調試調優(yōu)等。

  Poplar開發(fā)者文檔和社區(qū)中提供了大量的Poplaruserguide和文檔。開發(fā)者可通過www.graphcore.ai/developer訪問。

  此外,Graphcore在StackOverflow上也有針對IPU開發(fā)者的知識門戶網站,并在知乎上開辟了新的創(chuàng)新者社區(qū),未來通過知乎將更多深度文章呈現(xiàn)給開發(fā)者和用戶。

  據盧濤介紹,有些國內用戶反饋,認為Poplar的應用性優(yōu)于CUDA,執(zhí)行同樣的任務,在Poplar上開發(fā)速度更快。

  四、案例源代碼可下載,秀五大垂直應用

  當前基于IPU的應用已覆蓋了機器學習的各個應用領域,包括自然語言處理(NLP)算法、圖像/視頻處理、時序分析、推薦/排名以及概率模型。

  這些應用案例和模型已在TensorFlow、ONNX和GraphcorePopARTTM上可用,所有源代碼均可在Github上下載。

  相較NVIDIAV100,IPU在自然語言處理、概率算法、計算機視覺算法等應用均展現(xiàn)出性能優(yōu)勢。

  例如訓練BERT,在NVLink-enabled的平臺上大約要50多小時才能做到一定精度,而在基于IPU的戴爾DSS-8440服務器上只需36.3小時,速度提高25%。

  做BERT推理時,同一時延,IPU吞吐量比V100高一倍;在訓練MCMC時,IPU可將性能提升至V100的26倍。

  運行ResNeXt推理時,IPU可實現(xiàn)6倍的吞吐量和1/22的延時。一些搜索引擎公司、醫(yī)療影像公司用戶已通過IPU來使用ResNeXt的服務。

  Graphcore銷售總監(jiān)朱江分享了IPU在金融、醫(yī)療、電信、機器人、云與互聯(lián)網等五類垂直領域的應用實例。

  1、金融:LSTM推理性能提升260倍

  IPU在算法交易、投資管理、風險管理及詐騙識別領域等主要金融領域均表現(xiàn)出顯著優(yōu)勢。

  例如在推理方面,延遲性能不變時,IPU可將長短期記憶(LSTM)模型吞吐量提升260倍,對于不可向量化模型亦能取得非常好的效果。

  在訓練方面,IPU可將MCMC概率模型的采樣速度提高26倍,可進行阿爾法預測和期權定價,并能將強化學習的訓練速度提升13倍。

  采用多層感知器(MLP)預測銷售結果時,相較BatchSize為512K的GPU,IPU吞吐量可提升5.9倍以上。

  2、醫(yī)療和生命科學:影像分析能效提升4倍

  醫(yī)療和生命科學包括新藥研發(fā)、醫(yī)學圖像、醫(yī)學研究、精準醫(yī)療等領域,涉及大量復雜的實驗,加速計算過程對一些醫(yī)學成果的更快產出至為重要。

  微軟用ResNeXt模型做顱內出血醫(yī)學影像分析時,使用IPU較V100GPU速度提高2倍,而功耗僅為V100的一半。

  3、電信:加速5G創(chuàng)新應用

  在電信領域,智慧網絡、5G創(chuàng)新、預測性維護和客戶體驗方面均可應用IPU帶來加速體驗。

  例如,機器智能可幫助分析無線數據的一些變化,運行LSTM模型進行網絡流量矩陣預測時,采用IPU性能比GPU提升超過260倍。

  網絡切片和資源管理是5G中的一個特色,需要大量學習沒被標記過的數據,需要應用強化學習模型,而在IPU上運行強化學習,訓練吞吐量相較GPU最多可提高13倍。

  4、機器人:解決經典光束法平差加速問題

  在機器人領域,倫敦帝國理工學院AndrewDavison教授帶領的機器人視覺小組在今年3月發(fā)表的論文中采用IPU來開發(fā)新算法,用以優(yōu)化空間人工智能的效率。

  相較使用Ceres中央處理器庫的1450毫秒,IPU處理器僅在40毫秒內就解決了真正的光束法平差(BundleAdjustment)這一經典的計算機視覺問題。

  5、云與互聯(lián)網:通過微軟Azure開放

  云與互聯(lián)網是Graphcore早期及現(xiàn)在一直主要推廣的一個重要領域。

  當前微軟在Azure公有云上已面向全球客戶開放IPU公有云服務。此外,微軟在一些自然語言處理、計算機視覺應用中已使用IPU實現(xiàn)加速。

  另外歐洲搜索引擎公司也使用IPU進行ResNeXt模型推理,做了一個搜圖識別應用,將性能提升3.5倍以上。

  結語:即將接受中國市場的檢驗

  今年疫情拖累全球許多行業(yè)的發(fā)展,但在盧濤看來,AI領域非但不會走向低潮,反而會有很大發(fā)展,尤其是自然語言處理類算法的發(fā)展會催生大量新應用。

  疫情在全球范圍內推動了數字化的加速,亦會推動數據中心等算力基礎設施的建設進程。

  盧濤認為,2020年是對AI芯片非常關鍵的一年,如果企業(yè)拿不出AI芯片產品,或者對軟件不夠重視,對后續(xù)持續(xù)化投入或將是很大的挑戰(zhàn)。

  從Graphcore與阿里、百度的合作來看,該公司今年在中國市場的推進明顯提速。

  盡管Graphcore在中國市場的整體啟動較北美地區(qū)晚了一年左右,但盧濤期望,中國市場能在Graphcore全球市場占比達40%-50%。

  此外,Graphcore也希望針對中國市場的需求,做產品的定制化演進。

  據盧濤介紹,Graphcore有兩支技術團隊,一個是以定制開發(fā)為主的工程技術團隊,另一個是以對用戶的技術服務為主的現(xiàn)場應用團隊。

  其中工程技術團隊承擔兩個方面的工作:一是根據中國本地AI應用的特點及需求,將一些AI算法模型在IPU上實現(xiàn)落地;二是根據中國本地用戶對于AI的穩(wěn)定性學習框架平臺軟件方面的需求,做功能性的一些開發(fā)加強的工作。

  從上述種種應用案例來看,Graphcore已初步證明其創(chuàng)新IPU架構在多類AI應用上的出色訓練和推理表現(xiàn)。而Graphcore還會繼續(xù)“練內功、打基礎”,攻克技術難題,加固技術實力。

  不過芯片和相關軟件工具的落地只是第一步,真正商業(yè)化戰(zhàn)果如何,還要看市場給出的回音。

  雖然目前AI芯片市場中,英特爾和英偉達等巨頭仍占據著市場主導地位,但Graphcore和SambaNova作為兩家被資本市場看好的兩家獨角獸,此次它們獲得兩筆數額可觀的融資,也從中看出AI芯片創(chuàng)企的投資前景還是較為可觀。

  未來,這兩家公司是否能如他們所說般,推出具有變革意義的AI芯片產品,進一步推進摩爾定律的發(fā)展?我們拭目以待。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(m.u63ivq3.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯(lián)網或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0