今年的CVPR會議在拉斯維加斯舉辦(CVPR即IEEE國際計算機視覺與模式識別會議,是三大計算機視覺國際級會議之一),國內(nèi)計算機視覺領(lǐng)域的公司如百度、商湯科技、圖森科技等都參會并發(fā)表論文。學(xué)界和業(yè)界的研究表明,計算機視覺已經(jīng)發(fā)展到從模擬人類行為到輔助人類生活,再到幫助人類探索未知的階段。
計算機將理解人類手勢
如果給人類播放一段靜音的《守望先鋒》游戲戰(zhàn)斗視頻,即使是新手玩家也能根據(jù)畫面想象出游戲的種種音效,甚至能夠輕易依據(jù)某為英雄的動作反映出一句臺詞——“午時已到”,并對這些音效進行簡單地模擬。
但對于計算機來說,這并非一件易事。在CVPR2016會議現(xiàn)場,來自麻省理工學(xué)院的研究人員就展示了一向“視頻生成聲音”的技術(shù)??茖W(xué)家向VIS輸入包括46000種聲音在內(nèi)的1000段視頻對其進行訓(xùn)練,并通過深度學(xué)習(xí)算法對聲音進行解構(gòu),隨后系統(tǒng)便會給靜音視頻配上一段它認為正確的音效。據(jù)研究人員現(xiàn)場介紹,計算機所模擬出的聲音足以以假亂真,在此前的測試中便曾多次讓人類信以為真。
能夠正確理解人類手部動作,同樣是人工智能感知世界的重要任務(wù)。人類可以輕易地判斷“OK”或“豎起”大拇指等手勢所代表的意義,但對于計算機視覺來說,這項任務(wù)仍然處于比較早期的階段。
商湯科技高級研發(fā)工程師錢晨表示,手部姿態(tài)估計的難點,分為兩部,第一部手掌整體的姿態(tài);第二步是手指的姿態(tài)。因為手的外觀和手指的姿態(tài)相關(guān),在不知道手指的情況下,去估計手掌的姿態(tài)并不容易,近鄰搜索的方法耗時太久。而普渡大學(xué)的DeepMind技術(shù)將深度學(xué)習(xí)和近鄰搜索相結(jié)合,通過深度學(xué)習(xí),將輸入映射到低維向量和類別,快速地找出手掌的姿態(tài)參數(shù),再通過類別差異回歸算法來估計手指的姿態(tài)。手掌姿態(tài)估計比傳統(tǒng)的直接回歸精度提高很多。手部姿態(tài)估計作為整個手勢研究的組成部分,在實時估計的前提下,精度越高,手部動作識別的技術(shù)距離實用會越來越近,應(yīng)用場景也會越來越廣,對VR、游戲產(chǎn)業(yè)大有裨益。
無人駕駛行業(yè)將迎來變革
輔助/自動駕駛可以算是當下學(xué)界與工業(yè)界結(jié)合非常緊密、成果實踐性強、討論熱度極高的一個領(lǐng)域。在人工智能逐漸理解人類世界之后,輔助人類的日常生活,便成為了其“理所應(yīng)當”的工作。
以色列知名公司MobileEye聯(lián)合創(chuàng)始人AmnonShashua認為,在2017年,高速自動續(xù)航功能將會普及,2018年到2020年,高速路上的自動駕駛將會普及,到2021年,部分都市區(qū)域會實現(xiàn)無人駕駛,而2023年,無人駕駛就能全部實現(xiàn)。
國內(nèi)專門研究輔助駕駛的圖森科技CTO侯曉迪認為,輔助駕駛、自動駕駛在中國和在歐美國家的現(xiàn)實差別很大,學(xué)界研究的相關(guān)技術(shù)均在一定程度上無法適用于中國的交通現(xiàn)狀:在中國的駕駛場景中,司機不遵守交通規(guī)則的比例要遠大于美國;道路線的整潔程度、道路標識是否清晰,甚至是否存在,中國城市修路頻率次數(shù)繁多;中國道路的擁擠程度也不能很好地應(yīng)用國外算法;在美國,自動駕駛技術(shù)如果需要取代人類出租車司機,只需將成本控制在10美元之下,但在中國就需要成本壓得更低。
侯曉迪稱,學(xué)術(shù)圈的歐美城市路況數(shù)據(jù)集較為齊全,甚至?xí)泻芏嘈〕鞘袛?shù)據(jù)集,但并沒有針對中國的路況數(shù)據(jù)集,初創(chuàng)公司打造自己數(shù)據(jù)庫的難度極大;中國高精度地圖水平和國際先進水平存在差距。
更多資訊請關(guān)注汽車制造頻道