作為全球第二大互聯(lián)網(wǎng)市場,中國也遇到了當初Google遇到的問題,無論是阿里,還是騰訊,都開啟了芯片自研之路。
如今,同樣的問題落在了字節(jié)跳動身上。
本周,字節(jié)跳動確認了一則傳聞:為了滿足該公司旗下TikTok的應(yīng)用需求,字節(jié)跳動已計劃聘用專家,為其數(shù)據(jù)中心開發(fā)SoC,以處理某些特定的工作負載。字節(jié)跳動已在其網(wǎng)站上發(fā)布了31個與芯片相關(guān)的職位,以組成團隊與芯片開發(fā)商合作。至此,字節(jié)跳動正式開啟自研芯片之路。
字節(jié)跳動副總裁楊震原表示,除了采購x86架構(gòu)CPU,該公司也會與芯片供應(yīng)商探索RISC架構(gòu)芯片在云端的應(yīng)用。字節(jié)跳動的自研芯片探索將主要圍繞自身的視頻推薦業(yè)務(wù)展開,為大規(guī)模推薦服務(wù)場景定制硬件優(yōu)化方案,比如視頻編解碼,云端推理加速等,以提升效率、降低成本。
也就是說,傳統(tǒng)x86架構(gòu)CPU已經(jīng)不能滿足TikTok的視頻推薦業(yè)務(wù),因為這種業(yè)務(wù)具有很強的創(chuàng)新性,這也是TikTok很快風(fēng)靡全球的主要原因。從我們普通抖音用戶的實際體驗也可以感受到,不用去找,抖音會根據(jù)用戶的個人喜好,主動推薦相應(yīng)的短視頻,以形成非常強的用戶粘性。雖然傳統(tǒng)CPU具有AI推理能力,但其在海量大數(shù)據(jù)面前,信息處理速度慢的短板暴露無遺,這就需要具備快速處理大數(shù)據(jù),且AI智能化水平比較高的處理器,再加上TikTok的視頻屬性,還需要有很好的視頻編解碼能力。放眼當下全球芯片廠商,能夠完全滿足這些條件的處理器SoC,還沒有看到。當然,傳統(tǒng)芯片廠商也并非無所作為,幾年前,以英偉達、賽靈思為代表的廠商就已經(jīng)開始了這方面的研發(fā)工作,這些年火爆的DPU(Data Processing Unit)和智能網(wǎng)卡,很大程度上就是為了滿足這類的大數(shù)據(jù)處理和AI智能化需求,但這些努力還在進行當中,要想完全滿足各大互聯(lián)網(wǎng)廠商的需求,還需要時間去打磨。正是在這樣的背景下,字節(jié)跳動開啟了自研芯片之路。
先驅(qū)Google
前文提到,在互聯(lián)網(wǎng)大廠中,最先遇到處理器瓶頸,并自研相關(guān)芯片的就是Google,研發(fā)的產(chǎn)品名為TPU(Tensor Processing Unit,張量處理器),這是一種專用集成電路(ASIC),是專門為Google的TensorFlow框架(一個符號數(shù)學(xué)庫,用于機器學(xué)習(xí)應(yīng)用程序,如神經(jīng)網(wǎng)絡(luò))設(shè)計的,用于加速機器學(xué)習(xí)。從2015年開始,Google就已經(jīng)在內(nèi)部使用TPU,主要為其云基礎(chǔ)架構(gòu)服務(wù),據(jù)悉,在Google相冊中,單個TPU每天可以處理超過1億張照片。與GPU不同,TPU主要用于進行大量的低精度計算(如8位精度),每焦耳功耗下的輸入/輸出操作更多。當然,除了TPU,Google也會采用傳統(tǒng)的CPU和GPU,用于其它類型的機器學(xué)習(xí)處理。
目前,TPU已經(jīng)發(fā)展到了第四代,算力不斷提升。
在視頻處理方面,Google也遇到了問題,那就是傳統(tǒng)的英特爾通用CPU數(shù)據(jù)處理能力已經(jīng)難以滿足YouTube上海量視頻的處理要求,對此,Google專門自研了Argos視頻編碼器(VCU),據(jù)悉,它的視頻處理能力非常高效,取代了數(shù)千萬個英特爾CPU。在需要處理海量數(shù)據(jù)的時候,相對于傳統(tǒng)CPU,專用ASIC優(yōu)勢非常明顯,VCU就是這樣的ASIC。
在YouTube上,每分鐘內(nèi),用戶會以各種格式上傳超過500小時的視頻內(nèi)容,Google需要快速將內(nèi)容轉(zhuǎn)碼為多種分辨率(包括144p,240p,360p,480p,720p,1080p,1440p,2160p和4320p)和高效格式(例如H.264,VP9或AV1),這需要強大的編碼能力。
傳統(tǒng)上,對于視頻的轉(zhuǎn)碼/編碼,Google有兩種選擇:一是英特爾的視覺計算加速器(VCA),它將三個Xeon(至強)E3 CPU、內(nèi)置Iris Pro P6300 / P580 GT4e的集成GPU,以及硬件編碼器集成在了一起;二是使用軟件編碼和英特爾Xeon處理器。
Google認為,對于不斷壯大的YouTube工作負載來說,以上這兩種選擇都不夠節(jié)能,且數(shù)據(jù)中心需要占用更多空間,于是自研了VCU。
第一代Argos VCU并沒有完全取代英特爾CPU,因為服務(wù)器仍然需要運行操作系統(tǒng)并管理存儲驅(qū)動器和網(wǎng)絡(luò)連接。VCU類似于一個GPU,需要一個CPU配合工作。
除了內(nèi)部設(shè)計的編碼/轉(zhuǎn)碼器外,VCU的大多數(shù)IP都是從第三方獲得的,以降低開發(fā)成本。VCU將盡可能多的高性能編碼/轉(zhuǎn)碼器集成在一個芯片上(同時保持高能效)。Google將兩個VCU放在一塊板上,每個雙插槽英特爾Xeon服務(wù)器安裝10張卡,這大大提高了每個機架的解碼/轉(zhuǎn)碼性能。
Google表示,與采用英特爾Skylake處理器的服務(wù)器系統(tǒng)相比,基于VCU的設(shè)備在性能/TCO(系統(tǒng)總體擁有成本)計算效率方面提高了7倍(H.264)和33倍(VP9),這里考慮到了VCU的成本和三年的運營費用。從Google給出的性能數(shù)據(jù)來看,在進行H.264編解碼時,單個Argos VCU幾乎不比雙向英特爾Skylake服務(wù)器快,但是,由于可以將20個VCU安裝到一個服務(wù)器中,其效率更高。當進行VP9編解碼時,VCU比英特爾的雙插槽Xeon快5倍,效率優(yōu)勢明顯。
之所以說了這么多Google自研芯片的內(nèi)容,就是要說明:字節(jié)跳動要自研芯片,大概率是遇到了上面提到的、Google曾經(jīng)遇到的這些問題。TikTok的數(shù)據(jù)中心需要支持各種業(yè)務(wù),包括視頻平臺、信息和娛樂應(yīng)用,需要開發(fā)視頻編解碼SoC來對用戶上傳的海量視頻流進行處理,同時,為了進一步降低數(shù)據(jù)中心的功耗和存儲容量,還需要更高效的AI算法及相關(guān)硬件。
全行業(yè)跟進
海量數(shù)據(jù)+視頻流處理需求是近些年各大廠商研發(fā)新型處理器的核心動力,不止Google和字節(jié)跳動這些互聯(lián)網(wǎng)大廠,傳統(tǒng)處理器(CPU、GPU、FPGA等)大廠也在不遺余力地進行著研發(fā)工作,因為市場有巨大需求。
以DPU為例,這是近些年最火爆的詞語了,英偉達是行業(yè)大佬,也有一眾廠商在這一賽道上摸爬滾打。
DPU是以數(shù)據(jù)為中心構(gòu)造的專用處理器,采用軟件定義技術(shù)支撐基礎(chǔ)設(shè)施層資源虛擬化,支持存儲、安全、服務(wù)質(zhì)量管理等服務(wù)。2020年,英偉達發(fā)布的DPU戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業(yè)熱潮。DPU面向的應(yīng)用更加底層,要解決的核心問題是基礎(chǔ)設(shè)施的降本增效,即將CPU處理效率低下、GPU處理不了的負載交由專用DPU處理,從而提升整個計算系統(tǒng)的效率、降低TCO。
DPU最直接的作用是作為CPU的卸載引擎,接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用。以網(wǎng)絡(luò)協(xié)議處理為例,要線速處理10G的網(wǎng)絡(luò)需要大約4個Xeon CPU核,也就是說,單是做網(wǎng)絡(luò)數(shù)據(jù)包處理,就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速網(wǎng)絡(luò),性能開銷就更加難以承受了。而將數(shù)據(jù)中心開銷全部從CPU卸載到DPU加速卡上,可以給上層應(yīng)用釋放可觀的算力。
此外,DPU還可以成為新的數(shù)據(jù)網(wǎng)關(guān),以提升隱私安全級別,DPU也可以成為存儲的入口,將分布式存儲和遠程訪問本地化。
雖然DPU與前文提到的Google和字節(jié)跳動自研芯片有所差異,但它們在本質(zhì)上都是相同的,都是為了解決傳統(tǒng)CPU和GPU難以承受的海量數(shù)據(jù)處理難題。目前來看,它們與傳統(tǒng)CPU和GPU能夠?qū)崿F(xiàn)很好的互補,在需要高性能的海量數(shù)據(jù)處理能力時,則用專用的DPU等ASIC,而平時需要靈活處理的指令則是CPU的專長。
另外,基于FPGA的智能網(wǎng)卡在近些年也有快速發(fā)展,它為大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)、高帶寬通信帶來了更多、更好的選擇,賽靈思在這方面很有一套。2018年,該公司將“數(shù)據(jù)中心優(yōu)先(Datacenter First)”作為其全新發(fā)展戰(zhàn)略。發(fā)布了Alveo系列加速卡產(chǎn)品,旨在大幅提升云端和本地數(shù)據(jù)中心服務(wù)器性能。2019 年4月,該公司收購Solarflare通信公司,將FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時延網(wǎng)絡(luò)接口卡(NIC)技術(shù),以及應(yīng)用加速軟件相結(jié)合,實現(xiàn)了全新的SmartNIC解決方案。這些,或許是AMD決定對其進行收購的重要原因。
除了英偉達和賽靈思,CPU霸主英特爾也沒閑著,該公司于2015年收購了Altera,在通用處理器的基礎(chǔ)上,進一步完善硬件加速能力。
2021 年6月,該公司發(fā)布了IPU(可以視其為英特爾版本的DPU),將FPGA與Xeon D系列處理器集成,成為了DPU賽道有力的競爭者。IPU是具有強化的加速器和以太網(wǎng)連接的高級網(wǎng)絡(luò)設(shè)備,它使用緊密耦合、專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能。
另外,Marvall發(fā)布了OCTEON 10 DPU產(chǎn)品,不僅具備強大的轉(zhuǎn)發(fā)能力,還具有突出的AI處理能力。
當然,研發(fā)類似TPU和DPU產(chǎn)品的不止以上這些廠商,目前,越來越多的業(yè)內(nèi)廠商在加大這方面的投入力度,以期在未來的競爭中占得先機。
中國廠商不甘人后
在自研處理器方面,中國各大互聯(lián)網(wǎng)企業(yè)都很積極,早在字節(jié)跳動之前,阿里、騰訊、百度都有行動。例如,阿里擁有自己的AI推理芯片和通用處理器,百度有昆侖AI處理器,騰訊有適用于各種云工作負載的處理器。
以騰訊為例,該公司的自研芯片之路,是從拿FPGA試水開始的,2015年,騰訊團隊研發(fā)的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時,也幫助QQ相冊大幅降低了存儲成本。他們看到了在 FPGA 方向探索和深入的可能性,2016 年,通過FPGA對深度學(xué)習(xí)模型CNN算法進行加速后,處理性能達到通用CPU的4倍,而單位成本僅為三分之一。
那之后,騰訊在自研芯片方面取得了多個成果,代表作是蓬萊實驗室的AI推理芯片紫霄和視頻轉(zhuǎn)碼芯片滄海,它們有望于今年實現(xiàn)量產(chǎn)。
2019 年,騰訊迎來云計算業(yè)務(wù)上的里程碑——云服務(wù)器規(guī)模突破了 100 萬。隨著服務(wù)器接入帶寬不斷提升,服務(wù)器用于網(wǎng)絡(luò)處理的CPU資源也越來越多,能否以更低成本的方式來實現(xiàn)服務(wù)器網(wǎng)絡(luò)處理,同時還提供更高的網(wǎng)絡(luò)性能?答案是智能網(wǎng)卡。該公司制定了“先從基于FPGA自研智能網(wǎng)卡起步,再開展智能網(wǎng)卡芯片研發(fā)”的發(fā)展路線。
2020年9月,騰訊第一代基于FPGA的自研智能網(wǎng)卡正式上線,命名為水杉。
水杉投入應(yīng)用后,第二代智能網(wǎng)卡銀杉的研發(fā)工作于2021年10月正式上線,這一代智能網(wǎng)卡的網(wǎng)絡(luò)端口翻了一番,達到2*100G,基于此,騰訊云推出了業(yè)界首款自研第六代100G云服務(wù)器。它的計算性能最大提升220%、存儲性能最大提升100%。單節(jié)點接入網(wǎng)絡(luò)帶寬相比上一代最大提升4倍,延時下降50%。
目前,騰訊正在研發(fā)其首款智能網(wǎng)卡芯片玄靈,采用7nm制程工藝,預(yù)計在2022年底流片。據(jù)悉,玄靈的性能相對商業(yè)芯片可提升4倍,通過將原來運行在主機CPU上的虛擬化、網(wǎng)絡(luò)/存儲 IO等功能卸載到芯片,可實現(xiàn)主機CPU的0占用。
不止騰訊,阿里和百度都有各自的芯片研發(fā)故事,這里就不一一贅述了。
中國大陸系統(tǒng)廠商(互聯(lián)網(wǎng)和設(shè)備廠商)自研芯片,也不全是商業(yè)原因,有的是受到國際貿(mào)易限制,市場上有可用芯片,但買不到。
無論是阿里、騰訊、百度,還是字節(jié)跳動,他們自研芯片,主要與Google類似,市場上沒有滿意的芯片,而華為則有些不同,該公司2005年就開始布局自研芯片,主要考慮的是有朝一日如果受到國際貿(mào)易限制,能夠有自家芯片頂上,從而掌握主動權(quán)。2019年之后,多年擔(dān)心的事情還是發(fā)生了,但無奈的是,雖然華為的芯片研發(fā)能力很強,但由于中國大陸芯片制造能力有限,設(shè)計出了高端芯片,制造端受限后,造不出來,非常遺憾。
因此,國際大廠(如Google)自研芯片,完全出于商業(yè)原因,而中國大陸系統(tǒng)廠商自研芯片,原因更多,苦難更深。