從騰訊在芯片的領(lǐng)域的布局中看,此前他們一直以投資和建立實驗室為主,鮮有傳出在自研芯片方面的消息,行業(yè)只能從其發(fā)布的招聘信息中捕捉到了一絲他們進軍芯片領(lǐng)域的動態(tài)。
隨著此次騰訊正式對外公布其自研芯片的成果,國內(nèi)互聯(lián)網(wǎng)巨頭們又將齊聚芯片市場。以搜索引擎而崛起的百度、以電商而聞名的阿里巴巴、以社交軟件而成長的騰訊,以短視頻而走紅的字節(jié)跳動,當初以不同切入點進入市場的互聯(lián)網(wǎng)巨頭,在布局芯片市場之時又會有什么差異?
百度:基于XPU昆侖芯
2018年7月4日,百度在2018年百度AI開發(fā)者大會上宣布推出云端全功能AI芯片“百度昆侖”, 首批產(chǎn)品包含訓(xùn)練芯片“昆侖818-300”、推理芯片“昆侖818-100”。
今年6月24日,百度智能芯片及架構(gòu)部門完成獨立融資,成立昆侖芯(北京)科技有限公司,百度芯片首席架構(gòu)師歐陽劍出任昆侖芯片公司CEO。
從發(fā)布自研芯片到分拆獨立融資,百度用了3年。
關(guān)于分拆融資的消息,李彥宏在致投資人的信中曾表示,盡管AI芯片是高技術(shù)門檻和高風(fēng)險的投資,但是百度希望在AI芯片領(lǐng)域有所突破,因此選擇組建自己的AI芯片公司,因為它與平臺能力密切相關(guān),能充分利用百度在深度學(xué)習(xí)框架領(lǐng)域的優(yōu)勢。
百度并不是一開始就自研。面對一個自身并不專業(yè)的領(lǐng)域,百度早期選擇和半導(dǎo)體老牌公司合作。2017年的Hot Chips大會上百度首次發(fā)布了XPU,這款XPU由百度與賽靈思基于FPGA合作研發(fā),擁有256核心,集成了一個共享內(nèi)存用于數(shù)據(jù)同步,所有內(nèi)核都運行在600MHz。
XPU后來成為百度自研芯片的基石。
2018年百度官宣昆侖1芯片,采用自研XPU架構(gòu),與適用于垂直場景領(lǐng)域的芯片不同,百度稱昆侖除了常用深度學(xué)習(xí)算法等云端需求,還能適配諸如自然語言處理,大規(guī)模語音識別,自動駕駛,大規(guī)模推薦等具體終端場景的計算需求。
后來,三星宣布為昆侖1芯片代工,使用14nm工藝和I-Cube封裝工藝,終于2020年早期,昆侖1芯片實現(xiàn)量產(chǎn)。
昆侖1的芯片首先被用在了百度自家的產(chǎn)品中,官方稱在百度搜索引擎及云計算用戶已經(jīng)部署2萬片。時任百度芯片部門負責(zé)人歐陽劍表示,昆侖1芯片在150瓦的功率下能實現(xiàn)260 TOPS的處理能力。在單卡單精算力領(lǐng)域,達到了的20TFLOPS,同時在混合精度下算力下,同樣也能夠達到80TFLOPS。
今年3年,歐陽劍等人以作者身份在IEEE發(fā)表了題為《Kunlun – A 14nm high performance AI processor for diversified workloads》的專題文章,成為了ISSCC2021會議第三部分Modern Digital SoCs的三篇文章之一。
文章對T4與昆侖進行了對比,相比Nvidia T4 GPU ,昆侖性能在不同模型下提升了1.5-3倍。
在昆侖1的亮眼表現(xiàn)中,昆侖2不期而至。8月18日百度世界2021大會上,李彥宏宣布昆侖2代AI芯片實現(xiàn)量產(chǎn)。相比2018年發(fā)布的昆侖1芯片,昆侖2代的性能提升了2-3倍。它采用7nm制程,搭載自研的第二代XPU架構(gòu),能用于云、邊、端等場景。官方稱,昆侖2整數(shù)精度(INT8)算力達到 256 TeraOPS,半精度(FP16)為128 TeraFLOPS,而最大功耗僅為 120W。
值得注意的是,百度不是宣布昆侖2流片,而是直接宣布昆侖2量產(chǎn)。目前,昆侖2已經(jīng)與飛騰等多款國產(chǎn)通用處理器、麒麟等多款國產(chǎn)操作系統(tǒng)以及百度自研的飛槳PaddlePaddle深度學(xué)習(xí)框架完成了端到端的適配。
另外,百度推出昆侖系列芯片的意義更在于該芯片能夠賦能其百度搜索、以及服務(wù)各個行業(yè)的百度智能云等。從成績上看,根據(jù)EET的報道顯示,百度昆侖1已在百度搜索引擎、小度等業(yè)務(wù)中部署超過2萬片,服務(wù)50多家外部客戶。
阿里巴巴:廣泛布局的平頭哥
2018年,阿里巴巴正式宣布合并中天微達摩院團隊,成立平頭哥半導(dǎo)體芯片公司,平頭哥也作為阿里巴巴全資半導(dǎo)體子公司注冊掛牌了。僅僅成立三年以來,作為一家互聯(lián)網(wǎng)公司孵化的芯片企業(yè),阿里平頭哥已推出了數(shù)款產(chǎn)品。
平頭哥擁有端云一體全棧產(chǎn)品系列,涵蓋數(shù)據(jù)中心人工智能芯片、處理器IP授權(quán)等,實現(xiàn)芯片端到端設(shè)計鏈路全覆蓋。公司擁有的玄鐵、倚天、寒光、羽陣四個產(chǎn)品系列中,玄鐵是處理器IP,倚天和寒光是處理器芯片,羽陣為RFID芯片。阿里平頭哥的產(chǎn)品研發(fā)非常迅速,僅一年就基于RISC-V發(fā)布了處理器IP核玄鐵910和含光800 AI芯片。
截至目前,玄鐵產(chǎn)品已成系列,共有8和9兩個系列,其中8系列CPU有10個,9系列有5個。截止到2020年,基于玄鐵架構(gòu)的CPU出貨量已經(jīng)超過20億顆。
其中,E907兼容RISC-V架構(gòu),是玄鐵MCU處理器中的性能最高的處理器核。E907主要面向語音入口MCU、TWS、MPU、導(dǎo)航、多模無線接入等應(yīng)用領(lǐng)域,官方稱擁有高工作頻率超過1GHz,單位性能可達3.8 Coremark/MHz。
今年10月19日,在阿里云棲大會上,阿里巴巴宣布平頭哥開源玄鐵 RISC-V 系列處理器,并開放系列工具及系統(tǒng)軟件。此次開源的玄鐵系列 RISC-V 處理器,包括玄鐵 E902、E906、C906、C910 等 4 款量產(chǎn)處理器 IP。與此前阿里在2019年開源的低功耗微控制芯片設(shè)計平臺“無劍 100 Open”一道,為全球開發(fā)者提供了架構(gòu)新選擇。
在同一天的云棲大會上,平頭哥還發(fā)布自研云芯片倚天710。據(jù)阿里平頭哥官方資料,倚天710采用業(yè)界最先進的5nm工藝,單芯片容納高達600億晶體管;在芯片架構(gòu)上,倚天710使用2.5D封裝包含128個Armv9高性能CPU核,每個CPU核心配置64KB一級指令緩存,64KB一級數(shù)據(jù)緩存,以及1MB二級緩存,片上集成128MB系統(tǒng)緩存。內(nèi)存子系統(tǒng)配置8通道DDR5,峰值總帶寬達到281GB/s,I/O子系統(tǒng)含96通道PCIe 5.0,雙向理論總帶寬達到768GB/s。
阿里云智能總裁、達摩院院長在演講時宣稱,倚天710是業(yè)界性能最強的ARM服務(wù)器芯片,性能超過業(yè)界標桿20%,能效比提升50%以上。倚天710將在阿里云數(shù)據(jù)中心部署應(yīng)用。
阿里云經(jīng)過這幾年的發(fā)展正逐漸顯現(xiàn)出活力,根據(jù)財經(jīng)網(wǎng)的報道顯示,對比歷史數(shù)據(jù),2015財年阿里巴巴首次披露云計算營收,當年阿里云全年收入為12.71億元,到2021財年營收601.2億元,7年間增長46倍。
因此,我們也有理由相信,平頭哥在芯片領(lǐng)域的部屬也將會對阿里巴巴的其他業(yè)務(wù)起到積極作用。
新秀字節(jié)雖遲但到
上月14日,字節(jié)跳動入股半導(dǎo)體公司云脈芯聯(lián)。云脈芯聯(lián)主要從事數(shù)據(jù)中心網(wǎng)絡(luò)芯片。行業(yè)人士稱投資云脈芯聯(lián)是字節(jié)跳動自研芯片的又一布局行動。
云脈芯聯(lián)不是字節(jié)跳動投資的第一家半導(dǎo)體公司。此前,字節(jié)跳動已經(jīng)接連投資了RISC-V計算平臺希姆計算、國產(chǎn)GPU公司摩爾線程、信號產(chǎn)品公司潤石科技、AI芯片研發(fā)商睿思芯科等一眾半導(dǎo)體公司。這些公司大多新近成立,處于A輪或者天使輪融資階段,涉及半導(dǎo)體設(shè)計、銷售、平臺多個方向。
在投資的同時,字節(jié)跳動做了自研的兩手準備,今年7月,在字節(jié)跳動的招聘官網(wǎng)上,出現(xiàn)了兩個芯片工程師崗位信息,這彷佛公開表示了字節(jié)跳動正在搭建自己的芯片團隊。
兩個崗位的任職要求相似,都是和FPGA/ASIC相關(guān),并且多是為服務(wù)器以及數(shù)據(jù)中心服務(wù)。
字節(jié)跳動擁有抖音、西瓜視頻、今日頭條等明星產(chǎn)品,其對AI的研究處于領(lǐng)先地位,更強大的AI對算力有更大要求,選擇自研AI芯片更容易拉動上述產(chǎn)品迭代。
互聯(lián)網(wǎng)造芯規(guī)律
互聯(lián)網(wǎng)公司造芯已經(jīng)成為企業(yè)的可能增長極點,無論谷歌、亞馬遜等都已經(jīng)進入并廣泛布局。
AI芯片、云計算、IC設(shè)計成為互聯(lián)網(wǎng)公司造芯的三大主力方向。其中,互聯(lián)網(wǎng)公司廣泛從AI芯片自研入手,相比于終端AI芯片,云端AI芯片更受互聯(lián)網(wǎng)公司青睞。幸運的是,在云端AI芯片領(lǐng)域,中國互聯(lián)網(wǎng)巨頭與美國同行們(亞馬遜、谷歌)幾乎是同時起步,也未掉隊。
提到中國互聯(lián)網(wǎng)公司造芯哪里不同,主要還是在各家的策略,字節(jié)跳動投資案例多,而阿里和百度、騰訊投資半導(dǎo)體事件則少一些,但芯片投資或產(chǎn)品基本是圍繞自身產(chǎn)品或服務(wù)。
這提現(xiàn)出互聯(lián)網(wǎng)造芯的優(yōu)勢,與其行業(yè)基因一脈相承。
互聯(lián)網(wǎng)公司擁有大量的線上客戶,并能從中積累海量用戶數(shù)據(jù),從中總結(jié)出廣泛的應(yīng)用場景,這是進入芯片行業(yè)的另類資本。傳統(tǒng)半導(dǎo)體大廠以銷售產(chǎn)品為主,要考慮研發(fā)成本、存貨周期和供應(yīng)等,而互聯(lián)網(wǎng)公司產(chǎn)品多用于自身的AI場景推理和數(shù)據(jù)中心計算,封閉的產(chǎn)品鏈消弭了大量后顧之憂,自研芯片也可以省掉很大成本。
但是互聯(lián)網(wǎng)造芯也有很大不足,我們無法從官方的口徑中看到市場真實的反應(yīng),這容易造成行業(yè)的懷疑和不信任,成為互聯(lián)網(wǎng)公司的弊端之一。再者,BAT的AI芯片多以推理和訓(xùn)練芯片為主,這種芯片并非難以研發(fā)。還有,物聯(lián)網(wǎng)芯片不需要非常高的制程,互聯(lián)網(wǎng)公司追求高端制程可能遺留資源浪費問題。
互聯(lián)網(wǎng)造芯正在大浪淘沙,留下真正的參賽人。
從自用到廣泛的商用部署需要大量驗證和時間,不過有理由相信這仍是一個長賽道、寬賽道,也相信中國的互聯(lián)網(wǎng)企業(yè)也有半導(dǎo)體的一片天。