作為緊隨風(fēng)口的車企,自然也不能在大模型時(shí)代落后:7月31日,吉利預(yù)告了大模型技術(shù);8月8日,廣汽推出“廣汽AI大模型平臺”;奇瑞也將發(fā)布自己的AI大模型……而在此之前,小鵬、理想、特斯拉都宣稱自己擁有“自動化數(shù)據(jù)閉環(huán)系統(tǒng)”,作為大模型的一種應(yīng)用方向。
除此之外,平臺級公司,百度、阿里、騰訊、360、華為都推出了自己的大模型。上半年結(jié)束的時(shí)候,國內(nèi)大模型已經(jīng)達(dá)到80個以上。中美兩國的大模型數(shù)量占據(jù)了全球80%。在大模型如此火熱的今天,自動駕駛的落地也在加速,當(dāng)然,也迎來了新的挑戰(zhàn)。
01
自動駕駛中的大模型
其實(shí)“模型”就是一段計(jì)算機(jī)程序,用來構(gòu)建一個虛擬的神經(jīng)網(wǎng)絡(luò)。和生物的神經(jīng)網(wǎng)絡(luò)類似,只有刺激到一定程度,神經(jīng)才會活躍。如果再強(qiáng)化刺激,就會輸出活動。這其實(shí)就是多段函數(shù)的表達(dá)。神經(jīng)網(wǎng)絡(luò)模擬任意連續(xù)函數(shù),也就成了可能。上世紀(jì)80年代之后,這些計(jì)算機(jī)概念就建立起來,并在自動駕駛上應(yīng)用,但一直沒有大的突破。
其根本的原因在于參數(shù)量。這是ChatGPT火起來的重要原因。OpenAI公司發(fā)現(xiàn),模型參數(shù)如果多到一定程度,系統(tǒng)智能(模型精度)就會極大提升,原理現(xiàn)在無法解釋,但已經(jīng)有了一個詞匯來形容——“涌現(xiàn)”。多到什么程度呢?一般來說,至少要1億左右。當(dāng)然,因?yàn)樽匀徽Z言的信息密度高于圖像,所以ChatGPT-2的參數(shù)量達(dá)到15億個,而ChatGPT-3則達(dá)到1750億個,剛好和人類神經(jīng)元數(shù)量級別差不多。
自動駕駛中的大模型更為復(fù)雜一些,被稱作為多模態(tài)大模型。作為一種可以處理多種不同類型數(shù)據(jù)的深度學(xué)習(xí)模型,它可以整合來自不同傳感器的數(shù)據(jù),并根據(jù)這些數(shù)據(jù)做出決策。多模態(tài)大模型通常由多個分支組成,每個分支處理不同類型的數(shù)據(jù),例如圖像、文本、聲音、視頻等。這些分支可以并行運(yùn)行,并最終將結(jié)果合并以進(jìn)行決策。與傳統(tǒng)的單模態(tài)模型相比,多模態(tài)大模型的優(yōu)點(diǎn)在于它可以從多個數(shù)據(jù)源中獲得更豐富的信息,從而提高模型的性能和魯棒性。例如,在自動駕駛領(lǐng)域中,多模態(tài)大模型可以同時(shí)處理來自相機(jī)、激光雷達(dá)和毫米波雷達(dá)等多個傳感器的數(shù)據(jù),以更全面地理解當(dāng)前交通環(huán)境,并做出更準(zhǔn)確的決策。
02
大模型如何顛覆自動駕駛?
具體而言,大模型如何部署在自動駕駛車輛上,又能部署在自動駕駛車輛的哪些模塊呢?
首先是自動駕駛的感知部分,眾所周知,自動駕駛的感知需要融合多個傳感器的輸入,從而完成數(shù)據(jù)的融合增強(qiáng)。在這個過程中,當(dāng)傳感器的檢測結(jié)果沖突時(shí),更加相信哪一方的結(jié)果便成了一大難題。而大模型的一大優(yōu)勢是可以處理不同類型的數(shù)據(jù)之間的關(guān)系。例如,在自動駕駛中,相機(jī)可以提供道路和障礙物的圖像信息,激光雷達(dá)可以提供距離和深度信息,而毫米波雷達(dá)可以提供速度和方向信息。大模型可以將這些不同類型的數(shù)據(jù)融合在一起,以更全面和準(zhǔn)確地理解駕駛環(huán)境。
其次,便是完成目標(biāo)檢測任務(wù)中的自動標(biāo)注和預(yù)標(biāo)注。以前都是有監(jiān)督學(xué)習(xí)(人工訓(xùn)練),現(xiàn)在讓AI自我訓(xùn)練,就需要先完成數(shù)據(jù)閉環(huán)。這就是為什么幾家新勢力說自己擁有“自動化數(shù)據(jù)標(biāo)注系統(tǒng)”的原因,其實(shí)就是大模型的一個功能。而完整的數(shù)據(jù)閉環(huán)則囊括了數(shù)據(jù)采集、數(shù)據(jù)回流、數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練、測試驗(yàn)證諸多環(huán)節(jié)。其中,“數(shù)據(jù)標(biāo)注”是AI自我訓(xùn)練的前提,也是AI訓(xùn)練的成本節(jié)點(diǎn)。
所謂標(biāo)注,就是給視頻或者圖像的關(guān)鍵信息點(diǎn)貼上標(biāo)簽,以便讓系統(tǒng)認(rèn)識并在實(shí)際操作中做針對性規(guī)劃。顯然,量產(chǎn)車采集的場景基本都是重復(fù)的,數(shù)據(jù)意義不大。專門采集車則比較貴(成本每天6000元-10000元)。重點(diǎn)是,如何盡量多地搜集到“長尾場景”,即不常遇見,但駕駛了很多次之后,每個人幾乎都會遇上的場景(占5%左右)。在大模型上線前,都是人工標(biāo)注。1000幀的視頻數(shù)據(jù),人工標(biāo)注成本可能達(dá)到萬元。而大模型目前最有價(jià)值的部分,莫過于自動化數(shù)據(jù)標(biāo)注,可能會節(jié)約上億元(取決于替代多少人標(biāo)注數(shù)據(jù))。
03
大模型時(shí)代,車企迎來全新挑戰(zhàn)
在大模型時(shí)代,由于模型參數(shù)量的巨大,所采集的數(shù)據(jù)也在飛速增長,如何應(yīng)用好車企賴以生存的駕駛數(shù)據(jù),并通過分布式系統(tǒng)來進(jìn)行部署和訓(xùn)練,最終如何應(yīng)用在自動駕駛車輛上,都成了一大難題。
一般來說,數(shù)據(jù)閉環(huán)的工作現(xiàn)在已經(jīng)分割給外包供應(yīng)商、大模型平臺公司(也可以視為供應(yīng)商)和車企分別來做。很少有車企能夠徹頭徹尾地自己部署基礎(chǔ)大模型,自己搞定應(yīng)用層,自己設(shè)計(jì)預(yù)標(biāo)注并實(shí)現(xiàn)數(shù)據(jù)閉環(huán),再驅(qū)動算法更新。這即是L4的進(jìn)化之路,它的技術(shù)復(fù)雜度要求車企與供應(yīng)商充分融合式合作,而非傳統(tǒng)的供應(yīng)商“交付”-主機(jī)廠應(yīng)用。
車企過于看重價(jià)值鏈全盤掌握,強(qiáng)調(diào)全棧自研,可能會耽誤迭代進(jìn)程。如果設(shè)計(jì)一種規(guī)則,比如基礎(chǔ)層大模型由平臺級公司設(shè)計(jì),車企負(fù)責(zé)掌握標(biāo)注規(guī)則,并將后續(xù)人工審核交給另外的第三方,拿回標(biāo)注好的數(shù)據(jù)之后,自己進(jìn)行訓(xùn)練。通過任務(wù)拆解,讓自己處于自動駕駛價(jià)值鏈的核心地位。避免在關(guān)鍵技術(shù)上受制于人,也不用被迫接受由某個供應(yīng)商提出軟硬一體的解決方案。
總而言之,大模型的興起又引起了掌握智能駕駛的新勢力的一場狂歡,作為筆者始終認(rèn)為想要在L4級別的自動駕駛領(lǐng)域走到最后,必須是智駕、車身一起抓,特斯拉已經(jīng)為后來者指明了方向,在大模型時(shí)代到來之際,也將拉開新勢力與傳統(tǒng)造車廠的進(jìn)一步差距。
04
總結(jié)
在未來,汽車的終極形態(tài)必然是一個行走的智能終端,大模型的火熱也帶動了智駕在汽車上的部署落地,使得L4甚至更高級別的自動駕駛成為了可能。
縱然很多人認(rèn)為corner case對于自動駕駛來說將成為約束其發(fā)展的阻礙,但隨著時(shí)間發(fā)展,采集到的極端場景數(shù)據(jù)越來越多,越來越全,總有一天可以讓大模型學(xué)習(xí)到所有的駕駛情況,而那時(shí)自動駕駛時(shí)代將真正到來,走在前列的智駕公司也將贏得先發(fā)優(yōu)勢。