時間:2018-05-09 16:53:43來源:中國傳動網(wǎng)
本文整理自IEEEFellow優(yōu)必選悉尼大學(xué)人工智能研究院陶大程教授名為《人工智能正驅(qū)動機器人發(fā)展》稿件。
上一代機器人依賴的是計算智能,這個時代的機器人通過各種傳感器在一定程度上實現(xiàn)了感知智能,未來的機器人將進一步實現(xiàn)高性能的感知智能并且實現(xiàn)認知智能的效果。人工智能驅(qū)動機器人發(fā)展主要是基于人工智能的四個元素:Perceiving(感知)、Learning(學(xué)習)、Reasoning(推理)和Behaving(行為)。
機器人感知與交互能力
感知是利用各種各樣的傳感器來獲取環(huán)境信息,使得機器人理解外部環(huán)境。我們目前關(guān)注的是攝像機獲取的環(huán)境信息,因為利用攝像機獲取的環(huán)境信息可以做很多東西,比如物體的檢測和跟蹤、場景分析等,這樣機器人就有機會在我們的環(huán)境中完成人所需要它完成的任務(wù),達到機器人擴展“人”的智能的目標。
物體檢測對人來說輕而易舉,我們可以很輕松地從場景中檢測到這里有一只杯子,那里有一個人。對于機器人來說,目標是一致的,但是實現(xiàn)高性能的檢測卻不容易。傳統(tǒng)的物體檢測是通過窗掃描來實現(xiàn)的。掃描窗從左上角的第一個像素開始,逐像素掃描到右下角的最后一個像素,并且掃描若干次不斷調(diào)整掃描窗的尺寸。這種方式只適合檢測某一種固定的物體,即便如此效率也非常低下。我們知道掃描的過程中產(chǎn)生的各種掃描窗有大量的冗余,且很多掃描窗也不能是物體,這就驅(qū)動我們?nèi)タ紤]采用一個體量很小的神經(jīng)網(wǎng)絡(luò)來快速找到那些有可能包含我們所關(guān)心的物體的圖像區(qū)域。這個網(wǎng)絡(luò)就是proposalnetwork,目前已經(jīng)被廣泛地采用了。獲得這些可能包含物體的圖像區(qū)域后,我們就可以使用一個高精度的分類網(wǎng)絡(luò),對圖像區(qū)域進行分類,這樣就能夠快速地檢測場景中的物體。
有了高效的檢測框架,我們能干什么事呢?舉個例子,一張照片里面有很多人,如果讓人來數(shù),時間代價很大。但是用機器數(shù)一下就知道了,人臉檢測器能夠檢測出來大約850張人臉。實際上拍這個照片的時候統(tǒng)計為1000人。因為一些人離攝像頭太遠了,分辨率很低;另外,有些站在后面的人可能被前面的人擋住了。這些人臉要檢測出來還是有很多挑戰(zhàn)的。除了檢測人臉,還可以檢測車輛,不分晝夜。
機器人所處的環(huán)境是動態(tài)的,人和物體都在動,機器人的本體也在運動。機器人需要理解物體和人的行為。要理解實現(xiàn)行為理解,跟蹤所有的物體是必不可少的。首先說一下單目標跟蹤,這個任務(wù)的挑戰(zhàn)性來源于多種因素的影響,比如說光線變化、物體的變形等。要想長時間穩(wěn)定的跟蹤運動物體,僅僅靠跟蹤是不夠的。通常,我們會把跟蹤和檢測放到一起。
跟蹤完單個目標之后,往往還需要跟蹤多個目標。比如在這個監(jiān)控場景里面包含了很多人,很顯然,這是一個多目標跟蹤的問題。除了單目標跟蹤遇到的各種挑戰(zhàn),在多目標跟蹤里面,還有運動物體的互相遮擋這一挑戰(zhàn)。多目標跟蹤有很多應(yīng)用,比如無人駕駛中,我們需要理解目標區(qū)域里面所有人的行為。再問一個問題,我們?yōu)槭裁葱枰彝シ?wù)機器人,或者社交機器人?我們除了期望這些機器人幫我們完成一些簡單的家務(wù)之外,我們更加希望這樣的機器人能夠和我們做一些情感上的交流。
我們看一下這個視頻。在這個setup里面,我們首先需要解決多攝像的機拼接問題。這個足球比賽視頻用了四臺攝像機。這個籃球比賽視頻用了兩臺攝像機。通過攝像機標定,我們可以實現(xiàn)準確的視頻拼接。有了這樣一個拼接好的視頻之后,我們可以理解這些運動員在球場的跑位。配合行人重驗證和人臉識別,我們甚至可以知道每個球員是誰。再配合人體姿態(tài)估計,我們也能夠精細的理解每一位球員的每一個動作。有了這些信息輸入之后,機器人就能理解兩個隊伍的比賽狀態(tài),這樣的人機交流將是非常有趣的。
機器人要充分理解一個場景,還非常依賴于場景分割。場景分割可以幫助機器人知道場景中有哪些物體、物體在什么位置,包括物體的大小、體量甚至一些詳細的屬性標簽等。目前深度神經(jīng)網(wǎng)絡(luò)已經(jīng)可以做到對靜態(tài)場景比較精確的標注。在運動場景中,機器也已經(jīng)能夠做到相對比較精準的分割,協(xié)助完成,比如自動駕駛。實現(xiàn)高性能的場景分割,我們需要實現(xiàn)高效的多特征、多尺度信息融合。
我們在看一個場景的時候,可以知道哪個物體離我們比較近、哪個離得比較遠。場景分割告訴我們有什么物體,這些物體在哪里,我們還需知道場景的深度信息,這樣我們就能夠知道物體的遠近。距離信息對于機器人在場景中的導(dǎo)航定位、物體抓取等都非常重要。我們知道目前大部分機器人只安裝了一臺攝像機。那么我們需要從單張照片中獲取深度信息。我們知道這個問題是非常困難的,但我們可以利用很多歷史數(shù)據(jù)對來訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)。我們把彩色圖像輸入到一個深度卷及網(wǎng)絡(luò),輸出是深度圖。如果我們有大量的數(shù)據(jù)對,似乎感覺就能夠?qū)崿F(xiàn)這樣的目標。但即便如此,要想達到很好的效果也很困難。我們在做這個問題時,有兩個發(fā)現(xiàn):(1)在高分辨率彩色圖像上直接回歸這個深度信息是非常不準的,但如果我們把深度信息進行量化,分成若干塊,變成一個分類問題,我們卻可以達到非常好的效果;(2)我們依然需要連續(xù)的深度信息,這時候我們把彩色圖像的分辨率降低,在低分辨率的彩色圖像上回歸連續(xù)的深度信息,我們也能夠得到非常好的效果。剩下的問題就是如何把兩個發(fā)現(xiàn)有效的結(jié)合起來,實現(xiàn)高精度的單張圖像的深度回歸。
我們并不期望這樣的系統(tǒng)能夠替代16線、64線的激光雷達。畢竟回歸的精度和激光雷達的測量精度還是有很大差距的。但是,這樣的系統(tǒng)對于一些不需要剛精度深度信息的應(yīng)用卻是非常有效的。另外,也可以和激光雷達進行信息融合,得到空間高分辨率的場景深度信息。
現(xiàn)在的機器人識別,比如一個家庭里面的五六個人已經(jīng)沒什么問題了。甚至稍微增加模型的復(fù)雜度,除了可以識別家庭成員,還可以識別家庭成員的朋友,大的場景在一定程度上也能夠?qū)崿F(xiàn),這主要歸功于深度神經(jīng)網(wǎng)絡(luò)。
人臉識別是身份認證非常直接的手段。當然,還可以通過人的行走的方式,甚至穿著信息。布局多攝像機網(wǎng)絡(luò)的智慧城市系統(tǒng)中有這樣一個問題,一個人穿過若干攝像機,那么如何把這個人的行動軌跡恢復(fù)出來?這個問題就可以通過行人重驗證來解決,甚至我們可以利用穿著信息去找特定的人。比如找一個上身是藍色衣服,下身是黑色褲子。我們就可以知道這個人在一定區(qū)域內(nèi)的行動軌跡。在Market1501的數(shù)據(jù)庫上,我們rank-one的識別率已經(jīng)超過了95%。
人機交互是非常復(fù)雜的,因為如何理解人的意圖是非常困難。那么把這個問題簡化一下,我們首先考慮檢測人的關(guān)節(jié)點、跟蹤人的姿態(tài)。總的來說,在光線不算糟糕的情況下,基本上可以做到有效跟蹤。比如最近CMU的框架,甚至可以識別到手的關(guān)節(jié),這樣就可以幫我們分析手的動作、甚至做手語識別。有了這樣的人體姿態(tài)跟蹤的框架,我們可以做機器人的控制,還可以分析球場上每個運動員的動作,知道他是射門還是投球。除此之外,還可以做fine-grainedclassification,比如說識別世界上的鳥,利用關(guān)鍵點檢測技術(shù),或者說基于我們的pose-net,我們可以檢測到鳥的嘴、頭和腳等。然后在每個區(qū)域上提取精細的特征,這樣我們就可以比較準確地識別出鳥的類別。
這些都只是機器視覺感知的一部分。除了視覺感知,還有自然語言理解、語音識別等。在這些例子中,我們對輸入的數(shù)據(jù)是有質(zhì)量要求的。如果現(xiàn)實中輸入圖像或者視頻數(shù)據(jù)的質(zhì)量比較差,比如有噪聲、霧霾等,都會給后續(xù)的識別造成困擾。所以,我們需要做圖像質(zhì)量評價。
圖像分辨率也是一個問題?,F(xiàn)在的攝像機已經(jīng)很好了,一般都可以獲取到非常高分辨率的圖像和視頻,但不都是這樣,比如說攝像機離物體比較遠。當數(shù)據(jù)的分辨率低的時候,檢測、跟蹤、識別都會很難,所以對分辨率的提升就非常關(guān)鍵。
機器人自我學(xué)習能力
機器人在感知環(huán)境之后,它所獲取的信息對于系統(tǒng)性能的提升是有一定幫助的。要進一步提升機器人的性能,就需要機器人自我學(xué)習,把不同類型的信息進行有效的整合,這些都和機器學(xué)習有很多的關(guān)系。
人是一個多任務(wù)學(xué)習的實體,我們希望機器人也是多任務(wù)學(xué)習的實體。目前大部分網(wǎng)絡(luò)都是單一任務(wù)驅(qū)動的,人臉識別就是人臉識別、表情識別就是表情識別。但是我給你一張照片你能得到很多信息,比如這個人是男的還是女的、戴眼鏡沒、甚至這個人的屬性,這就激發(fā)我們要訓(xùn)練支持多任務(wù)學(xué)習的神經(jīng)網(wǎng)絡(luò)。
除了多任務(wù)學(xué)習,還有多標簽學(xué)習,給你一個圖像或者視頻,所涵蓋的標簽信息非常廣泛。這些標簽之間也是有關(guān)系的,而這個關(guān)系就是非對稱的因果關(guān)系。利用這樣的非對稱因果關(guān)系,我們可以更為有效的進行圖像識別和理解。
再就是遷移學(xué)習。舉個例子,比如我手里有一個東西,它是圓的、紅色的,脆的,我問大家這是什么?大家想一想可能不知道是什么。再比如反過來,我手里有一個蘋果,大家描述一下這個蘋果有什么特征?這個非常直接,你們會告訴我,這是圓的、紅的、脆的、非常好吃。傳統(tǒng)的遷移學(xué)習,都是基于特征包含標簽的假設(shè)。
當我們的標簽數(shù)據(jù)是沒有噪聲的時候,我們能夠有效的訓(xùn)練模型。如果標簽有噪聲怎么辦?現(xiàn)在是大數(shù)據(jù)時代,數(shù)據(jù)的標簽都是通過眾包獲取的,所以有標簽噪聲很正常。
深度學(xué)習提升了系統(tǒng)的性能,但是模型也變得越來越大,存儲和計算都變成了問題。有什么辦法讓深度模型變得很???我們就要對深度模型進行壓縮。通過傳統(tǒng)的DCT變換,我們可以對模型進行非常有效的壓縮,同時在一定程度上提升了原始模型的泛化能力。
最后是推理和行為。比如人的行為分析:要正確理解視頻的內(nèi)容,比如這個視頻是打拳擊、洗臉還是玩游戲。
再比如人機交互,我們怎么教機器人來做一些事情?傳統(tǒng)的方式,我們通過程序設(shè)計,未來的機器人都是試教學(xué)習或者是模仿學(xué)習,讓機器人看一下,它就知道怎么做了。
Image或者Videocaptioning(看圖說話)。給機器一個小視頻讓它來識別,這樣的問題難度已經(jīng)不大了。但如何對內(nèi)容進行精細地理解、描述,還是很困難的。
除了看圖說話,還有看圖回答問題。這對計算機來說不容易,你要理解圖像,理解問題,知道如何把問題跟圖像關(guān)聯(lián)起來。
通過深度學(xué)習,結(jié)合視頻和激光雷達,我們可以檢測到所有的人和車,可以估計他們的速度,檢測到路線,對場景進行分割,分析安全區(qū)域,讓無人車完整的感知環(huán)境。甚至還可以分析人、車未來要做的動作。無人車、機器人,都給人工智能提供了非常好的展示平臺。
總之,人工智能、機器人,給未來帶來了無限可能。
標簽:
中國傳動網(wǎng)版權(quán)與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。