時間:2017-07-27 15:19:38來源:中國科學(xué)院深圳先進技術(shù)研究院
伴隨著電子信息技術(shù)的高速發(fā)展以及各類攝像頭的廣泛應(yīng)用,全球圖像視頻數(shù)據(jù)爆炸式增長,人類社會正在進入視覺信息的大數(shù)據(jù)時代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時,也對智能視覺技術(shù)提出了新的挑戰(zhàn)。
目前大多數(shù)視覺處理系統(tǒng)可以很好地采集、傳輸和存儲圖像視頻,但是缺乏對其圖像視頻內(nèi)容高效準確的分析、識別和挖掘方法。首先,圖像視頻內(nèi)容復(fù)雜,包含場景多樣、物體種類繁多,這就要求處理方法對紛繁復(fù)雜的多種對象具有魯棒的處理能力;其次,非受控條件下,圖像和視頻的內(nèi)容受光照、姿態(tài)、遮擋等影響變化大,這就要求處理方法對復(fù)雜變化具有魯棒性;最后,圖像視頻數(shù)據(jù)量大,特征維度高,部分應(yīng)用需實時處理,對海量數(shù)據(jù)的計算效率有較高的要求。近年來深度學(xué)習(xí)方法的快速發(fā)展,為解決上述問題提供了有效的途徑。
圖1視覺大數(shù)據(jù)的特點、挑戰(zhàn)與核心問題
深度學(xué)習(xí)方法的前世今生
深度學(xué)習(xí)方法(Deeplearning)作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓展,近年來在語音、圖像、自然語言等的語義認知問題上取得巨大的進展,為解決視覺大數(shù)據(jù)的表示和理解問題提供了通用的框架。深度學(xué)習(xí)利用包含多個隱層的深層神經(jīng)網(wǎng)絡(luò),解決需要高度抽象特征的人工智能任務(wù)。深度學(xué)習(xí)借鑒了人腦的多層(通常認為是8-10層)神經(jīng)細胞處理結(jié)構(gòu),多層非線性結(jié)構(gòu)使得深度神經(jīng)網(wǎng)絡(luò)備對抽象語義特征的抽取能力和對復(fù)雜任務(wù)的建模能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)受限于過擬合(overfitting)問題,很難訓(xùn)練出泛化能力強的多層網(wǎng)絡(luò)模型。
深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別的特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。建立深度學(xué)習(xí)的一個動機在于模擬人腦的分析處理機制來解釋數(shù)據(jù),人腦皮質(zhì)具有多層的結(jié)構(gòu),信息在人腦中逐層處理,逐步抽象。深度架構(gòu)看做一種“因子分解”,即從復(fù)雜的數(shù)據(jù)中抽取出可復(fù)用的表達本質(zhì)特性的特征。深度學(xué)習(xí)模型由于其多層非線性結(jié)構(gòu),具有強大的能力,特別適合大數(shù)據(jù)的學(xué)習(xí)(圖2)。這是由于傳統(tǒng)淺層模型由于能力有限,在訓(xùn)練數(shù)據(jù)量增大到一定程度時其能力往往飽和,無法充分利用大規(guī)模訓(xùn)練數(shù)據(jù)所包含的有效信息。與此對應(yīng),深度學(xué)習(xí)方法由于其強大的能力,可以較為充分的利用大規(guī)模數(shù)據(jù),從中提取有效的特征。
圖2深度學(xué)習(xí)方法與非深度學(xué)習(xí)方法在訓(xùn)練數(shù)據(jù)量增加時的性能對比
深度學(xué)習(xí)方法在視覺領(lǐng)域的進展
目前,深度學(xué)習(xí)已經(jīng)在人工智能的多個應(yīng)用領(lǐng)域如圖像分類、語音識別、自然語言理解等取得了突破性的進展。深度學(xué)習(xí)由于其優(yōu)異的效果,也引起了工業(yè)界的廣泛興趣,以谷歌、臉譜、微軟、百度等為代表的互聯(lián)網(wǎng)企業(yè)已經(jīng)成為深度學(xué)習(xí)技術(shù)創(chuàng)新的重要力量。在語音領(lǐng)域,深度學(xué)習(xí)用深信度網(wǎng)絡(luò)DBN替換聲學(xué)模型中的混合高斯模型(GaussianMixtureModel,GMM),獲得了相對錯誤率顯著的降低(30%左右),并已經(jīng)成功的應(yīng)用于微軟、谷歌、訊飛等的語音識別引擎。在機器翻譯領(lǐng)域,神經(jīng)語言模型較傳統(tǒng)方法取得了更好的效果。2016年,由谷歌DeepMind開發(fā)的AlphaGo圍棋程序依靠深度學(xué)習(xí)和強化學(xué)習(xí)的強大能力,在圍棋人機大戰(zhàn)中以3:1戰(zhàn)勝了韓國頂級棋手李世乭。
物體分類
在圖像領(lǐng)域,Krizhevsky等利用多層卷積神經(jīng)網(wǎng)絡(luò),在大規(guī)模圖像分類ImageNetLSVRC-2012競賽中(包含1千個類別,120萬圖像)取得了明顯高于傳統(tǒng)方法的結(jié)果,將Top5錯誤率由26%大幅降低至15%,該神經(jīng)網(wǎng)絡(luò)有7層,包含約65萬個神經(jīng)節(jié)點和6千萬參數(shù)。目前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為該領(lǐng)域的主流方法。在此基礎(chǔ)上,研究人員提出了VGGNet、GoogLeNet、殘差網(wǎng)絡(luò)ResidualNet等更深層的網(wǎng)絡(luò),并提升了深度學(xué)習(xí)方法在大規(guī)模圖像分類領(lǐng)域的性能。深度網(wǎng)絡(luò)還能準確檢測出圖像物體的位置,也能預(yù)測例如人體部位手、頭、足的位置和姿態(tài)。
圖3AlexNet網(wǎng)絡(luò)結(jié)構(gòu)
人像分析
在人臉識別方面,深度神經(jīng)網(wǎng)絡(luò)在人臉識別領(lǐng)域公認困難的LFW數(shù)據(jù)庫上超過了人眼識別的準確度。圖4給出了在人臉識別領(lǐng)域取得優(yōu)秀性能的DeepID網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)根據(jù)人臉結(jié)構(gòu)的特殊性,提出了使用局部共享卷積,提升了網(wǎng)絡(luò)對人臉圖像的分類能力。提出面向跨年齡人臉識別的隱因子卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將隱因子學(xué)習(xí)引入深度網(wǎng)絡(luò),將深度網(wǎng)絡(luò)中全連接層特征分解為身份和年齡兩個部分(圖5),為提升深度網(wǎng)絡(luò)對年齡變化的魯棒性提供了一條新途徑,實驗表明該網(wǎng)絡(luò)在著名的LFW數(shù)據(jù)庫上取得了99%的正確率,超過了人眼在這一數(shù)據(jù)庫上的表現(xiàn)97%,并在Morph和CACD這兩個重要的跨年齡數(shù)據(jù)庫上取得了領(lǐng)先的識別率,分別為88.1%和98.5%,還首次提出面向深度網(wǎng)絡(luò)的中心損失函數(shù),增強深度特征學(xué)習(xí)中的聚類效果,實驗表明該方法可以提升人臉識別深度網(wǎng)絡(luò)的性能,在MegaFace百萬級人像比對國際測試的FGNet任務(wù)中取得了良好的效果。
圖4DeepID人像分類網(wǎng)絡(luò)結(jié)構(gòu)[9]
圖5面向跨年齡人臉識別的隱因子卷積神經(jīng)網(wǎng)絡(luò)
場景識別
場景識別與理解是計算機視覺的一個基本問題。傳統(tǒng)的場景識別方法多依賴于SIFT、HOG、SURF等局部特征。近年來,卷積神經(jīng)網(wǎng)絡(luò)也被用于場景分類。早期的方法發(fā)現(xiàn)微調(diào)(Finetune)通過大規(guī)模物體數(shù)據(jù)庫Imagenet訓(xùn)練的網(wǎng)絡(luò),在場景分類中也有較好的效果。但與物體分類相比,場景類別更加抽象同一個場景類別內(nèi)圖像的內(nèi)容和布局可能包含復(fù)雜的變化。麻省理工學(xué)院的AI實驗室推出PLACE大規(guī)模場景數(shù)據(jù)庫,推動深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模場景分類的應(yīng)用,使得研究人員可以直接利用場景數(shù)據(jù)而無需借助Imagenet訓(xùn)練場景分類的深度模型。許多在物體分類中表現(xiàn)優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu)如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在場景分類中取得了良好的效果。研究表明,Dropout和多尺度數(shù)據(jù)增強等策略有助于深度網(wǎng)絡(luò)的訓(xùn)練,可以緩解網(wǎng)絡(luò)過擬合問題;Relaybackpropagation等方法可以提升場景分類深度網(wǎng)絡(luò)的性能。與傳統(tǒng)手工設(shè)計的特征相比,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的場景特征表達能力豐富,語義性更強,因此可以在識別任務(wù)中取得更好的效果。
圖6知識引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)
行為識別
行為識別是計算機視覺領(lǐng)域的重要問題。近年來,研究人員逐步將深度神經(jīng)網(wǎng)絡(luò)引入視頻的分析與理解中,使其成為行為識別研究中的一個新的研究方向。Karpathy等提出一個卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN),通過不同的時序融合策略,實現(xiàn)對視頻中的行為識別。然而,此模型盡管利用海量數(shù)據(jù)(sports-1M)進行預(yù)訓(xùn)練,行為識別的精準性仍有待提高。
另一流行的方法是3DCNN,此類方法通過對標(biāo)準2DCNN在時間軸上的擴展,實現(xiàn)對視頻的時空建模。但是,巨大的訓(xùn)練復(fù)雜度需要海量數(shù)據(jù)的支撐或3D卷積核的分解。牛津大學(xué)提出一個雙流CNN框架以避免3DCNN的訓(xùn)練問題。通過外形流(Appearancestream)與運動流(MotionStream)CNN的獨立設(shè)計,此框架在標(biāo)準數(shù)據(jù)庫UCF101與HMDB51中實現(xiàn)了精準的行為識別。然而,運動流CNN的輸入為疊加光流,這使得此框架只能捕捉住短時運動信息,而忽略視頻長時運動信息的理解。為進一步改進此結(jié)構(gòu)的識別精準性,作者團隊提出軌跡池化的深度描述子(Trajectory-pooledDeepDescriptors),該方法為融合深度模型與傳統(tǒng)軌跡特征提供了一種新機制,實驗表明這種深度軌跡特征TDD較傳統(tǒng)手工設(shè)計的特征和傳統(tǒng)深度模型具有更強的表示能力和區(qū)分性,可明顯提高視頻分類的正確率。人們還開發(fā)了視頻關(guān)鍵域挖掘的深度模型,以及時間分割神經(jīng)網(wǎng)絡(luò),以提高此類框架的時空建模能力。另外,還開發(fā)了增強運動向量卷積神經(jīng)網(wǎng)絡(luò)EMV-CNN,利用運動向量替代需要大量運算的光流,提速20倍以上。遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN),特別是長短時記憶模型(LongShort-TermMemory,LSTM)在各種序列建模任務(wù)中取得的成功,使得基于深度學(xué)習(xí)的行為識別方法逐步向序列建模方向發(fā)展。一種常見的訓(xùn)練方法是利用雙流CNN提取的特征作為LSTM的輸入進行序列模型的訓(xùn)練。
圖7軌跡采樣的深度卷積視頻特征
除此之外,深度學(xué)習(xí)還在圖像恢復(fù)和超分辨率、圖像質(zhì)量評價、語義分割與解析、圖像內(nèi)容文本生成、醫(yī)學(xué)圖像分析等許多任務(wù)中取得了較傳統(tǒng)方法更好的結(jié)果,大大推動了相互領(lǐng)域技術(shù)和方法的發(fā)展。
發(fā)展趨勢
深度學(xué)習(xí)方法雖然取得了重要的進展,但在計算機視覺的許多應(yīng)用中仍然面臨巨大的挑戰(zhàn),這主要體現(xiàn)在以下幾個方面:
首先,目前的深度學(xué)習(xí)方法往往依賴大規(guī)模數(shù)據(jù)進行訓(xùn)練。但并非所有的視覺問題都有充足的訓(xùn)練樣本,如特定人或物體的檢索,罕見物種的識別、醫(yī)學(xué)圖像中的稀有病例等,訓(xùn)練數(shù)據(jù)可能非常稀少或者收集大量樣本的代價會很大。于此相對應(yīng),人的視覺系統(tǒng)僅需要少量樣本就可以識別類別,這很多程度是因為人可以復(fù)用在其他領(lǐng)域?qū)W習(xí)所得知識和經(jīng)驗。近年來小數(shù)據(jù)樣本(Smalldataset)的學(xué)習(xí)越來越引起研究人員的關(guān)注,如何利用小數(shù)據(jù)樣本來進行有效的深度學(xué)習(xí),是一個有待解決的挑戰(zhàn)性問題。
其次,深度卷積網(wǎng)絡(luò)采用誤差反向傳播算法進行參數(shù)學(xué)習(xí),這就要求訓(xùn)練數(shù)據(jù)有明確和豐富的監(jiān)督信息。但在許多實際問題中,對圖像進行詳細、精確的標(biāo)定極為耗時(如場景解析中的像素級標(biāo)簽、視頻中精細的時空標(biāo)定等);并且,許多訓(xùn)練數(shù)據(jù)中監(jiān)督信息缺失或監(jiān)督信息包含噪聲(如從互聯(lián)網(wǎng)中收集的照片)。如何利用弱監(jiān)督、噪聲監(jiān)督、非監(jiān)督統(tǒng)信息來訓(xùn)練深度網(wǎng)絡(luò),對利用大量標(biāo)定不完全的數(shù)據(jù)具有重要的實際意義。
最后,深度神經(jīng)網(wǎng)絡(luò)往往規(guī)模巨大、參數(shù)眾多。以AlexNet網(wǎng)絡(luò)為例,雖然輸入圖像已經(jīng)被縮小到224×224,但模型仍包含六千萬的參數(shù)。這使得深度神經(jīng)網(wǎng)絡(luò)較難應(yīng)用于計算和存儲資源受限的場合如移動終端、嵌入式系統(tǒng)等。同時,也使得人們很難把高分辨率的圖像直接作為深度網(wǎng)絡(luò)的輸入。如何對復(fù)雜深度網(wǎng)絡(luò)模型進行壓縮和加速,降低運算和存儲消耗,對解決深度學(xué)習(xí)方法資源受限的難題具有現(xiàn)實意義。
標(biāo)簽:
下一篇:雙飛輪移動機器人非線性控制研究
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責(zé)任。