您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 人工智能正驅(qū)動機器人發(fā)展

人工智能正驅(qū)動機器人發(fā)展

時間：2018-05-09 16:53:43來源：中國傳動網(wǎng)

導(dǎo)語：?上一代機器人依賴的是計算智能，這個時代的機器人通過各種傳感器在一定程度上實現(xiàn)了感知智能，未來的機器人將進一步實現(xiàn)高性能的感知智能并且實現(xiàn)認知智能的效果。

本文整理自IEEEFellow優(yōu)必選悉尼大學(xué)人工智能研究院陶大程教授名為《人工智能正驅(qū)動機器人發(fā)展》稿件。

上一代機器人依賴的是計算智能，這個時代的機器人通過各種傳感器在一定程度上實現(xiàn)了感知智能，未來的機器人將進一步實現(xiàn)高性能的感知智能并且實現(xiàn)認知智能的效果。人工智能驅(qū)動機器人發(fā)展主要是基于人工智能的四個元素：Perceiving（感知）、Learning（學(xué)習）、Reasoning（推理）和Behaving（行為）。

機器人感知與交互能力

感知是利用各種各樣的傳感器來獲取環(huán)境信息，使得機器人理解外部環(huán)境。我們目前關(guān)注的是攝像機獲取的環(huán)境信息，因為利用攝像機獲取的環(huán)境信息可以做很多東西，比如物體的檢測和跟蹤、場景分析等，這樣機器人就有機會在我們的環(huán)境中完成人所需要它完成的任務(wù)，達到機器人擴展“人”的智能的目標。

物體檢測對人來說輕而易舉，我們可以很輕松地從場景中檢測到這里有一只杯子，那里有一個人。對于機器人來說，目標是一致的，但是實現(xiàn)高性能的檢測卻不容易。傳統(tǒng)的物體檢測是通過窗掃描來實現(xiàn)的。掃描窗從左上角的第一個像素開始，逐像素掃描到右下角的最后一個像素，并且掃描若干次不斷調(diào)整掃描窗的尺寸。這種方式只適合檢測某一種固定的物體，即便如此效率也非常低下。我們知道掃描的過程中產(chǎn)生的各種掃描窗有大量的冗余，且很多掃描窗也不能是物體，這就驅(qū)動我們?nèi)タ紤]采用一個體量很小的神經(jīng)網(wǎng)絡(luò)來快速找到那些有可能包含我們所關(guān)心的物體的圖像區(qū)域。這個網(wǎng)絡(luò)就是proposalnetwork，目前已經(jīng)被廣泛地采用了。獲得這些可能包含物體的圖像區(qū)域后，我們就可以使用一個高精度的分類網(wǎng)絡(luò)，對圖像區(qū)域進行分類，這樣就能夠快速地檢測場景中的物體。

有了高效的檢測框架，我們能干什么事呢？舉個例子，一張照片里面有很多人，如果讓人來數(shù)，時間代價很大。但是用機器數(shù)一下就知道了，人臉檢測器能夠檢測出來大約850張人臉。實際上拍這個照片的時候統(tǒng)計為1000人。因為一些人離攝像頭太遠了，分辨率很低；另外，有些站在后面的人可能被前面的人擋住了。這些人臉要檢測出來還是有很多挑戰(zhàn)的。除了檢測人臉，還可以檢測車輛，不分晝夜。

機器人所處的環(huán)境是動態(tài)的，人和物體都在動，機器人的本體也在運動。機器人需要理解物體和人的行為。要理解實現(xiàn)行為理解，跟蹤所有的物體是必不可少的。首先說一下單目標跟蹤，這個任務(wù)的挑戰(zhàn)性來源于多種因素的影響，比如說光線變化、物體的變形等。要想長時間穩(wěn)定的跟蹤運動物體，僅僅靠跟蹤是不夠的。通常，我們會把跟蹤和檢測放到一起。

跟蹤完單個目標之后，往往還需要跟蹤多個目標。比如在這個監(jiān)控場景里面包含了很多人，很顯然，這是一個多目標跟蹤的問題。除了單目標跟蹤遇到的各種挑戰(zhàn)，在多目標跟蹤里面，還有運動物體的互相遮擋這一挑戰(zhàn)。多目標跟蹤有很多應(yīng)用，比如無人駕駛中，我們需要理解目標區(qū)域里面所有人的行為。再問一個問題，我們?yōu)槭裁葱枰彝シ?wù)機器人，或者社交機器人？我們除了期望這些機器人幫我們完成一些簡單的家務(wù)之外，我們更加希望這樣的機器人能夠和我們做一些情感上的交流。

我們看一下這個視頻。在這個setup里面，我們首先需要解決多攝像的機拼接問題。這個足球比賽視頻用了四臺攝像機。這個籃球比賽視頻用了兩臺攝像機。通過攝像機標定，我們可以實現(xiàn)準確的視頻拼接。有了這樣一個拼接好的視頻之后，我們可以理解這些運動員在球場的跑位。配合行人重驗證和人臉識別，我們甚至可以知道每個球員是誰。再配合人體姿態(tài)估計，我們也能夠精細的理解每一位球員的每一個動作。有了這些信息輸入之后，機器人就能理解兩個隊伍的比賽狀態(tài)，這樣的人機交流將是非常有趣的。

機器人要充分理解一個場景，還非常依賴于場景分割。場景分割可以幫助機器人知道場景中有哪些物體、物體在什么位置，包括物體的大小、體量甚至一些詳細的屬性標簽等。目前深度神經(jīng)網(wǎng)絡(luò)已經(jīng)可以做到對靜態(tài)場景比較精確的標注。在運動場景中，機器也已經(jīng)能夠做到相對比較精準的分割，協(xié)助完成，比如自動駕駛。實現(xiàn)高性能的場景分割，我們需要實現(xiàn)高效的多特征、多尺度信息融合。

我們在看一個場景的時候，可以知道哪個物體離我們比較近、哪個離得比較遠。場景分割告訴我們有什么物體，這些物體在哪里，我們還需知道場景的深度信息，這樣我們就能夠知道物體的遠近。距離信息對于機器人在場景中的導(dǎo)航定位、物體抓取等都非常重要。我們知道目前大部分機器人只安裝了一臺攝像機。那么我們需要從單張照片中獲取深度信息。我們知道這個問題是非常困難的，但我們可以利用很多歷史數(shù)據(jù)對來訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)。我們把彩色圖像輸入到一個深度卷及網(wǎng)絡(luò)，輸出是深度圖。如果我們有大量的數(shù)據(jù)對，似乎感覺就能夠?qū)崿F(xiàn)這樣的目標。但即便如此，要想達到很好的效果也很困難。我們在做這個問題時，有兩個發(fā)現(xiàn)：（1）在高分辨率彩色圖像上直接回歸這個深度信息是非常不準的，但如果我們把深度信息進行量化，分成若干塊，變成一個分類問題，我們卻可以達到非常好的效果；（2）我們依然需要連續(xù)的深度信息，這時候我們把彩色圖像的分辨率降低，在低分辨率的彩色圖像上回歸連續(xù)的深度信息，我們也能夠得到非常好的效果。剩下的問題就是如何把兩個發(fā)現(xiàn)有效的結(jié)合起來，實現(xiàn)高精度的單張圖像的深度回歸。

我們并不期望這樣的系統(tǒng)能夠替代16線、64線的激光雷達。畢竟回歸的精度和激光雷達的測量精度還是有很大差距的。但是，這樣的系統(tǒng)對于一些不需要剛精度深度信息的應(yīng)用卻是非常有效的。另外，也可以和激光雷達進行信息融合，得到空間高分辨率的場景深度信息。

現(xiàn)在的機器人識別，比如一個家庭里面的五六個人已經(jīng)沒什么問題了。甚至稍微增加模型的復(fù)雜度，除了可以識別家庭成員，還可以識別家庭成員的朋友，大的場景在一定程度上也能夠?qū)崿F(xiàn)，這主要歸功于深度神經(jīng)網(wǎng)絡(luò)。

人臉識別是身份認證非常直接的手段。當然，還可以通過人的行走的方式，甚至穿著信息。布局多攝像機網(wǎng)絡(luò)的智慧城市系統(tǒng)中有這樣一個問題，一個人穿過若干攝像機，那么如何把這個人的行動軌跡恢復(fù)出來？這個問題就可以通過行人重驗證來解決，甚至我們可以利用穿著信息去找特定的人。比如找一個上身是藍色衣服，下身是黑色褲子。我們就可以知道這個人在一定區(qū)域內(nèi)的行動軌跡。在Market1501的數(shù)據(jù)庫上，我們rank-one的識別率已經(jīng)超過了95%。

人機交互是非常復(fù)雜的，因為如何理解人的意圖是非常困難。那么把這個問題簡化一下，我們首先考慮檢測人的關(guān)節(jié)點、跟蹤人的姿態(tài)。總的來說，在光線不算糟糕的情況下，基本上可以做到有效跟蹤。比如最近CMU的框架，甚至可以識別到手的關(guān)節(jié)，這樣就可以幫我們分析手的動作、甚至做手語識別。有了這樣的人體姿態(tài)跟蹤的框架，我們可以做機器人的控制，還可以分析球場上每個運動員的動作，知道他是射門還是投球。除此之外，還可以做fine-grainedclassification，比如說識別世界上的鳥，利用關(guān)鍵點檢測技術(shù)，或者說基于我們的pose-net，我們可以檢測到鳥的嘴、頭和腳等。然后在每個區(qū)域上提取精細的特征，這樣我們就可以比較準確地識別出鳥的類別。

這些都只是機器視覺感知的一部分。除了視覺感知，還有自然語言理解、語音識別等。在這些例子中，我們對輸入的數(shù)據(jù)是有質(zhì)量要求的。如果現(xiàn)實中輸入圖像或者視頻數(shù)據(jù)的質(zhì)量比較差，比如有噪聲、霧霾等，都會給后續(xù)的識別造成困擾。所以，我們需要做圖像質(zhì)量評價。

圖像分辨率也是一個問題?，F(xiàn)在的攝像機已經(jīng)很好了，一般都可以獲取到非常高分辨率的圖像和視頻，但不都是這樣，比如說攝像機離物體比較遠。當數(shù)據(jù)的分辨率低的時候，檢測、跟蹤、識別都會很難，所以對分辨率的提升就非常關(guān)鍵。

機器人自我學(xué)習能力

機器人在感知環(huán)境之后，它所獲取的信息對于系統(tǒng)性能的提升是有一定幫助的。要進一步提升機器人的性能，就需要機器人自我學(xué)習，把不同類型的信息進行有效的整合，這些都和機器學(xué)習有很多的關(guān)系。

人是一個多任務(wù)學(xué)習的實體，我們希望機器人也是多任務(wù)學(xué)習的實體。目前大部分網(wǎng)絡(luò)都是單一任務(wù)驅(qū)動的，人臉識別就是人臉識別、表情識別就是表情識別。但是我給你一張照片你能得到很多信息，比如這個人是男的還是女的、戴眼鏡沒、甚至這個人的屬性，這就激發(fā)我們要訓(xùn)練支持多任務(wù)學(xué)習的神經(jīng)網(wǎng)絡(luò)。

除了多任務(wù)學(xué)習，還有多標簽學(xué)習，給你一個圖像或者視頻，所涵蓋的標簽信息非常廣泛。這些標簽之間也是有關(guān)系的，而這個關(guān)系就是非對稱的因果關(guān)系。利用這樣的非對稱因果關(guān)系，我們可以更為有效的進行圖像識別和理解。

再就是遷移學(xué)習。舉個例子，比如我手里有一個東西，它是圓的、紅色的，脆的，我問大家這是什么？大家想一想可能不知道是什么。再比如反過來，我手里有一個蘋果，大家描述一下這個蘋果有什么特征？這個非常直接，你們會告訴我，這是圓的、紅的、脆的、非常好吃。傳統(tǒng)的遷移學(xué)習，都是基于特征包含標簽的假設(shè)。

當我們的標簽數(shù)據(jù)是沒有噪聲的時候，我們能夠有效的訓(xùn)練模型。如果標簽有噪聲怎么辦？現(xiàn)在是大數(shù)據(jù)時代，數(shù)據(jù)的標簽都是通過眾包獲取的，所以有標簽噪聲很正常。

深度學(xué)習提升了系統(tǒng)的性能，但是模型也變得越來越大，存儲和計算都變成了問題。有什么辦法讓深度模型變得很??？我們就要對深度模型進行壓縮。通過傳統(tǒng)的DCT變換，我們可以對模型進行非常有效的壓縮，同時在一定程度上提升了原始模型的泛化能力。

最后是推理和行為。比如人的行為分析：要正確理解視頻的內(nèi)容，比如這個視頻是打拳擊、洗臉還是玩游戲。

再比如人機交互，我們怎么教機器人來做一些事情？傳統(tǒng)的方式，我們通過程序設(shè)計，未來的機器人都是試教學(xué)習或者是模仿學(xué)習，讓機器人看一下，它就知道怎么做了。

Image或者Videocaptioning（看圖說話）。給機器一個小視頻讓它來識別，這樣的問題難度已經(jīng)不大了。但如何對內(nèi)容進行精細地理解、描述，還是很困難的。

除了看圖說話，還有看圖回答問題。這對計算機來說不容易，你要理解圖像，理解問題，知道如何把問題跟圖像關(guān)聯(lián)起來。

通過深度學(xué)習，結(jié)合視頻和激光雷達，我們可以檢測到所有的人和車，可以估計他們的速度，檢測到路線，對場景進行分割，分析安全區(qū)域，讓無人車完整的感知環(huán)境。甚至還可以分析人、車未來要做的動作。無人車、機器人，都給人工智能提供了非常好的展示平臺。

總之，人工智能、機器人，給未來帶來了無限可能。

標簽：

分享到：

上一篇：伺服電機應(yīng)用抗干擾，懂得溯...

下一篇：演化計算可能是人工智能的下...

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關(guān)資訊

技術(shù)熱點