自動駕駛汽車中的人工智能(AI)應(yīng)用已經(jīng)很常見,從能夠識別行人并閱讀交通標(biāo)志的深度卷積神經(jīng)網(wǎng)絡(luò),到可以讓W(xué)aymo自動駕駛汽車安全通過交叉路口的算法,先進(jìn)的機(jī)器學(xué)習(xí)無處不在。相比之下,令人詫異的是目前的傳感器仍然不夠智能。
傳感器的短板
不過,不要誤解我的意思,目前的傳感器通過傳統(tǒng)方法已經(jīng)能夠提供驚人的性能。高分辨率數(shù)字?jǐn)z像頭正在變得越來越便宜,并且在尺寸和可靠性方面也能夠滿足工程師的理想要求。雷達(dá)的探測范圍和分辨率也一直在提高。激光雷達(dá)(LiDAR)雖然價(jià)格昂貴,但卻提供了令人難以置信的3D環(huán)境感知能力,解鎖了各種自動駕駛應(yīng)用。
但是,所有這些傳感器,通訊大多是單向的。一旦攝像頭定好位,它就會每33毫秒發(fā)送一張它所指向的環(huán)境圖片,直到被命令停止運(yùn)行。頂級的機(jī)械旋轉(zhuǎn)LiDAR也是按預(yù)設(shè)方向持續(xù)捕捉并傳輸數(shù)據(jù)流。目前的雷達(dá)也與此類似。
對比人類駕駛員“捕捉”周圍環(huán)境的方式,人類會不時(shí)掃描道路,尋找可能進(jìn)入道路的物體。當(dāng)接近十字路口時(shí),人類可能會向每個(gè)方向查看,觀察是否可以安全通過。人類如果觀察到正在路邊奔跑的孩子,可能會把注意力集中在他們身上,以防突發(fā)情況需要緊急停車。真正智能的自動駕駛汽車不僅需要能夠從預(yù)設(shè)的掃描模式中獲取信息,還要能夠?qū)⑵湫畔⑹占攸c(diǎn)“聚焦”在環(huán)境中最相關(guān)的區(qū)域。
雖然在傳感器中嵌入人工智能本身具有挑戰(zhàn),但其潛在的效益是巨大的。用最高效的方式收集數(shù)據(jù),可以在降低計(jì)算量和材料成本的同時(shí)提高性能,這是Level4級和5級自動駕駛走向大眾的迫切需求。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的研究,始終要求與人類的認(rèn)知進(jìn)行比較。因此,近年一種以人類認(rèn)知經(jīng)驗(yàn)為核心的概念正受到越來越多的關(guān)注。據(jù)麥姆斯咨詢報(bào)道,近期一篇關(guān)于“殘差注意力網(wǎng)絡(luò)(ResidualAttentionNetwork)”的論文,采用堆疊殘差注意力模塊在標(biāo)準(zhǔn)物體識別基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。
這一突破性研究真正令人驚嘆的是,他們的網(wǎng)絡(luò)層數(shù)不到下一代最佳方案的一半。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)都是平等地對待每個(gè)像素,無論其包含什么內(nèi)容。相比之下,在這個(gè)殘差注意力網(wǎng)絡(luò)中,每個(gè)注意力模塊都執(zhí)行兩項(xiàng)任務(wù):決定看哪里,以及那里有什么。這種架構(gòu)可使網(wǎng)絡(luò)只關(guān)注每張圖像中最重要的元素,使其相比競爭方案更具優(yōu)勢。
“Show,AttendandTell”算法
“Show,AttendandTell”算法展示了另一種非常令人印象深刻的方案。以前的工作都是只關(guān)注圖像一次,然后使用最后一層的全連接層得到圖像最有用的信息。這樣的缺點(diǎn)就是在描述圖像的時(shí)候丟失了很多有用的信息。
這項(xiàng)研究中所提取的這些矢量來自于低級(low-level)的卷積層,這使得解碼器可以通過選擇所有特征向量的子集來選擇性地聚焦于圖像的某些部分,也就是將注意力(Attention)機(jī)制嵌入。Attention機(jī)制可以學(xué)習(xí)到類似于人類注意力一樣的信息。
網(wǎng)絡(luò)神經(jīng)元
還有一些研究使用人工神經(jīng)網(wǎng)絡(luò)來選擇何時(shí)使用哪個(gè)傳感器。在近期發(fā)表的一項(xiàng)研究中,研究人員為他們被稱為“傳感器轉(zhuǎn)換注意網(wǎng)絡(luò)”開發(fā)了一種架構(gòu):將不同類型的傳感器引入一個(gè)共同架構(gòu)的一種神經(jīng)網(wǎng)絡(luò)系統(tǒng)。這項(xiàng)研究探討了他們的算法能夠評估來自每個(gè)傳感器的噪聲水平,并忽略它確定為不可靠的傳感器。
舉例來說,比如從電影中轉(zhuǎn)錄語音。如果音頻非常清晰但視頻很模糊,則可以完全忽略視頻,通過將音頻饋送到長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)來獲得最佳性能;如果音頻嚴(yán)重失真,但是視頻清晰,則可以通過使用卷積神經(jīng)網(wǎng)絡(luò)嘗試讀取演講者的嘴唇來提高性能。獲悉哪種傳感更可靠,是建立像人類一樣注意力算法的重要一步。
需要更進(jìn)一步的研究
雖然這些研究成果很喜人,但它們對人類注意力的模仿方式還不夠完善。當(dāng)人類關(guān)注某個(gè)物體時(shí),會用眼睛追蹤它。這是因?yàn)槲覀兊囊曈X在視野中心最好,而忽略邊緣附近的區(qū)域??梢韵胂髠鞲衅饕惨韵嗤姆绞竭\(yùn)行,讓它們更多地掃描周圍環(huán)境中的關(guān)鍵區(qū)域,而對不感興趣的區(qū)域執(zhí)行快速、粗略的探測。
關(guān)于這個(gè)問題的一項(xiàng)非常重要的研究由Larochelle和Hinton發(fā)表于2010年。受人眼功能的啟發(fā),他們創(chuàng)建了一種模型,在該模型中,神經(jīng)網(wǎng)絡(luò)會選擇輸入圖像中需要查看的區(qū)域。這些區(qū)域?qū)⒁愿叻直媛蕚魉?,而周圍區(qū)域的信息將模糊處理。通過結(jié)合這些類似人眼的“中央凹視”,可以看到神經(jīng)網(wǎng)絡(luò)以接近人眼的方式掃描圖像。
雖然上述大部分研究都集中在攝像頭成像上,但對于自動駕駛傳感器來說最有潛力的是固態(tài)模擬雷達(dá)。傳統(tǒng)的數(shù)字波束成形雷達(dá)將寬泛的信號發(fā)射到周圍環(huán)境中,然后在仔細(xì)分析反射回波的基礎(chǔ)上,嘗試識別環(huán)境中的目標(biāo)。
相比之下,固態(tài)模擬雷達(dá)將所有能量集中在一個(gè)非常窄的波束中,像LiDAR一樣對周圍環(huán)境進(jìn)行掃描。然而,與LiDAR不同的是,雷達(dá)通常使用一系列調(diào)制脈沖來測量其視場中物體的位置和速度。這種方案提供了無與倫比的探測范圍、角分辨率和信噪比。當(dāng)然,它也提出了一些挑戰(zhàn)和機(jī)遇。
時(shí)序就是一切
固態(tài)模擬雷達(dá)面臨的一個(gè)主要挑戰(zhàn)是確定所要使用的脈沖序列。脈沖序列的參數(shù)會影響最大測量范圍、最大可測量速度以及兩者的分辨率。這些限制是由物理定律決定的,因此增加其中一個(gè)就會不可避免地影響另一個(gè)。
對于擁堵的市中心,需要盡可能高的分辨率,因?yàn)樵诘退傩旭倳r(shí),距離非常遠(yuǎn)或運(yùn)動非??斓奈矬w影響不大;相對來說,在高速公路行駛時(shí),需要更大的探測范圍,以便盡早警告駕駛員前方的障礙物,并需要具有足夠高的最大可測量速度,以捕捉迎面駛來的車輛。有選擇地最大化雷達(dá)的性能需要算法的支持,這些算法了解它們的狀況,并能決定如何最好地探測、理解周圍的環(huán)境。
這類雷達(dá)的另一個(gè)挑戰(zhàn)是掃描需要時(shí)間,通常在幾個(gè)毫秒的量級。雖然這聽起來可能很短,但在每個(gè)方向上都以高分辨率掃描則需要花費(fèi)太長的時(shí)間,這對實(shí)現(xiàn)自動駕駛來說不太實(shí)際。與上述注意力機(jī)制神經(jīng)網(wǎng)絡(luò)非常相似,這樣的系統(tǒng)必須能夠基于先前的掃描對其環(huán)境的不同區(qū)域進(jìn)行優(yōu)先級排序。
Metawave正在這個(gè)方向上努力
汽車?yán)走_(dá)初創(chuàng)公司Metawave正致力于開發(fā)硬件和軟件來解決這些問題。Metawave基于超材料的模擬波束成形雷達(dá),可以在其他傳感器無法企及的距離捕捉信息,不過,前提是它需要將“注意力”集中于最緊要的目標(biāo)。雖然Metawave目前的研究主要集中在雷達(dá)領(lǐng)域,但這些技術(shù)還可以在固態(tài)LiDAR甚至攝像頭應(yīng)用中實(shí)現(xiàn)新的性能水平。
據(jù)麥姆斯咨詢此前報(bào)道,Metawave的先進(jìn)雷達(dá)已經(jīng)通過演示驗(yàn)證,首次實(shí)現(xiàn)300米外的汽車及其速度探測,以及最遠(yuǎn)可達(dá)180米外的行人和自行車探測。通過與Infineon(英飛凌)77GHz雷達(dá)芯片組(包括RXS8160MMIC和AURIX微控制器)以及NVIDIA(英偉達(dá))AI(人工智能)處理引擎相結(jié)合,Metawave的開發(fā)測試平臺性能相比目前現(xiàn)有的汽車傳感器提升了一倍以上。
像所有新興技術(shù)一樣,很難預(yù)測這個(gè)領(lǐng)域在五年內(nèi)的發(fā)展方向。盡管如此,我相信純研究領(lǐng)域興起的“注意力”概念,將成為實(shí)現(xiàn)Level4級和Level5級自動駕駛不可或缺的關(guān)鍵。對于大規(guī)模生產(chǎn)的自動駕駛汽車來說,更是如此,成本敏感型制造商會尋求使用更高效的算法,來降低硬件成本。
聲明:本文為轉(zhuǎn)載類文章,如涉及版權(quán)問題,請及時(shí)聯(lián)系我們刪除(QQ:2737591964),不便之處,敬請諒解!