您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 面向復(fù)雜視覺大數(shù)據(jù)的深度學(xué)習(xí)方法

面向復(fù)雜視覺大數(shù)據(jù)的深度學(xué)習(xí)方法

時間：2017-07-27 15:19:38來源：中國科學(xué)院深圳先進技術(shù)研究院

導(dǎo)語：?伴隨著電子信息技術(shù)的高速發(fā)展以及各類攝像頭的廣泛應(yīng)用，全球圖像視頻數(shù)據(jù)爆炸式增長，人類社會正在進入視覺信息的大數(shù)據(jù)時代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時，也對智能視覺技術(shù)提出了新的挑戰(zhàn)。

伴隨著電子信息技術(shù)的高速發(fā)展以及各類攝像頭的廣泛應(yīng)用，全球圖像視頻數(shù)據(jù)爆炸式增長，人類社會正在進入視覺信息的大數(shù)據(jù)時代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時，也對智能視覺技術(shù)提出了新的挑戰(zhàn)。

目前大多數(shù)視覺處理系統(tǒng)可以很好地采集、傳輸和存儲圖像視頻，但是缺乏對其圖像視頻內(nèi)容高效準確的分析、識別和挖掘方法。首先，圖像視頻內(nèi)容復(fù)雜，包含場景多樣、物體種類繁多，這就要求處理方法對紛繁復(fù)雜的多種對象具有魯棒的處理能力；其次，非受控條件下，圖像和視頻的內(nèi)容受光照、姿態(tài)、遮擋等影響變化大，這就要求處理方法對復(fù)雜變化具有魯棒性；最后，圖像視頻數(shù)據(jù)量大，特征維度高，部分應(yīng)用需實時處理，對海量數(shù)據(jù)的計算效率有較高的要求。近年來深度學(xué)習(xí)方法的快速發(fā)展，為解決上述問題提供了有效的途徑。

圖1視覺大數(shù)據(jù)的特點、挑戰(zhàn)與核心問題

深度學(xué)習(xí)方法的前世今生

深度學(xué)習(xí)方法(Deeplearning)作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓展，近年來在語音、圖像、自然語言等的語義認知問題上取得巨大的進展，為解決視覺大數(shù)據(jù)的表示和理解問題提供了通用的框架。深度學(xué)習(xí)利用包含多個隱層的深層神經(jīng)網(wǎng)絡(luò)，解決需要高度抽象特征的人工智能任務(wù)。深度學(xué)習(xí)借鑒了人腦的多層（通常認為是8-10層）神經(jīng)細胞處理結(jié)構(gòu)，多層非線性結(jié)構(gòu)使得深度神經(jīng)網(wǎng)絡(luò)備對抽象語義特征的抽取能力和對復(fù)雜任務(wù)的建模能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)受限于過擬合(overfitting)問題，很難訓(xùn)練出泛化能力強的多層網(wǎng)絡(luò)模型。

深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別的特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。建立深度學(xué)習(xí)的一個動機在于模擬人腦的分析處理機制來解釋數(shù)據(jù)，人腦皮質(zhì)具有多層的結(jié)構(gòu)，信息在人腦中逐層處理，逐步抽象。深度架構(gòu)看做一種“因子分解”，即從復(fù)雜的數(shù)據(jù)中抽取出可復(fù)用的表達本質(zhì)特性的特征。深度學(xué)習(xí)模型由于其多層非線性結(jié)構(gòu)，具有強大的能力，特別適合大數(shù)據(jù)的學(xué)習(xí)（圖2）。這是由于傳統(tǒng)淺層模型由于能力有限，在訓(xùn)練數(shù)據(jù)量增大到一定程度時其能力往往飽和，無法充分利用大規(guī)模訓(xùn)練數(shù)據(jù)所包含的有效信息。與此對應(yīng)，深度學(xué)習(xí)方法由于其強大的能力，可以較為充分的利用大規(guī)模數(shù)據(jù)，從中提取有效的特征。

圖2深度學(xué)習(xí)方法與非深度學(xué)習(xí)方法在訓(xùn)練數(shù)據(jù)量增加時的性能對比

深度學(xué)習(xí)方法在視覺領(lǐng)域的進展

目前，深度學(xué)習(xí)已經(jīng)在人工智能的多個應(yīng)用領(lǐng)域如圖像分類、語音識別、自然語言理解等取得了突破性的進展。深度學(xué)習(xí)由于其優(yōu)異的效果，也引起了工業(yè)界的廣泛興趣，以谷歌、臉譜、微軟、百度等為代表的互聯(lián)網(wǎng)企業(yè)已經(jīng)成為深度學(xué)習(xí)技術(shù)創(chuàng)新的重要力量。在語音領(lǐng)域，深度學(xué)習(xí)用深信度網(wǎng)絡(luò)DBN替換聲學(xué)模型中的混合高斯模型（GaussianMixtureModel，GMM），獲得了相對錯誤率顯著的降低(30%左右)，并已經(jīng)成功的應(yīng)用于微軟、谷歌、訊飛等的語音識別引擎。在機器翻譯領(lǐng)域，神經(jīng)語言模型較傳統(tǒng)方法取得了更好的效果。2016年，由谷歌DeepMind開發(fā)的AlphaGo圍棋程序依靠深度學(xué)習(xí)和強化學(xué)習(xí)的強大能力，在圍棋人機大戰(zhàn)中以3:1戰(zhàn)勝了韓國頂級棋手李世乭。

物體分類

在圖像領(lǐng)域，Krizhevsky等利用多層卷積神經(jīng)網(wǎng)絡(luò)，在大規(guī)模圖像分類ImageNetLSVRC-2012競賽中（包含1千個類別，120萬圖像）取得了明顯高于傳統(tǒng)方法的結(jié)果，將Top5錯誤率由26%大幅降低至15%，該神經(jīng)網(wǎng)絡(luò)有7層，包含約65萬個神經(jīng)節(jié)點和6千萬參數(shù)。目前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為該領(lǐng)域的主流方法。在此基礎(chǔ)上，研究人員提出了VGGNet、GoogLeNet、殘差網(wǎng)絡(luò)ResidualNet等更深層的網(wǎng)絡(luò)，并提升了深度學(xué)習(xí)方法在大規(guī)模圖像分類領(lǐng)域的性能。深度網(wǎng)絡(luò)還能準確檢測出圖像物體的位置，也能預(yù)測例如人體部位手、頭、足的位置和姿態(tài)。

圖3AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

人像分析

在人臉識別方面，深度神經(jīng)網(wǎng)絡(luò)在人臉識別領(lǐng)域公認困難的LFW數(shù)據(jù)庫上超過了人眼識別的準確度。圖4給出了在人臉識別領(lǐng)域取得優(yōu)秀性能的DeepID網(wǎng)絡(luò)結(jié)構(gòu)，該網(wǎng)絡(luò)根據(jù)人臉結(jié)構(gòu)的特殊性，提出了使用局部共享卷積，提升了網(wǎng)絡(luò)對人臉圖像的分類能力。提出面向跨年齡人臉識別的隱因子卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)將隱因子學(xué)習(xí)引入深度網(wǎng)絡(luò)，將深度網(wǎng)絡(luò)中全連接層特征分解為身份和年齡兩個部分（圖5），為提升深度網(wǎng)絡(luò)對年齡變化的魯棒性提供了一條新途徑，實驗表明該網(wǎng)絡(luò)在著名的LFW數(shù)據(jù)庫上取得了99%的正確率，超過了人眼在這一數(shù)據(jù)庫上的表現(xiàn)97%，并在Morph和CACD這兩個重要的跨年齡數(shù)據(jù)庫上取得了領(lǐng)先的識別率，分別為88.1%和98.5%，還首次提出面向深度網(wǎng)絡(luò)的中心損失函數(shù)，增強深度特征學(xué)習(xí)中的聚類效果，實驗表明該方法可以提升人臉識別深度網(wǎng)絡(luò)的性能，在MegaFace百萬級人像比對國際測試的FGNet任務(wù)中取得了良好的效果。

圖4DeepID人像分類網(wǎng)絡(luò)結(jié)構(gòu)[9]

圖5面向跨年齡人臉識別的隱因子卷積神經(jīng)網(wǎng)絡(luò)

場景識別

場景識別與理解是計算機視覺的一個基本問題。傳統(tǒng)的場景識別方法多依賴于SIFT、HOG、SURF等局部特征。近年來，卷積神經(jīng)網(wǎng)絡(luò)也被用于場景分類。早期的方法發(fā)現(xiàn)微調(diào)（Finetune）通過大規(guī)模物體數(shù)據(jù)庫Imagenet訓(xùn)練的網(wǎng)絡(luò)，在場景分類中也有較好的效果。但與物體分類相比，場景類別更加抽象同一個場景類別內(nèi)圖像的內(nèi)容和布局可能包含復(fù)雜的變化。麻省理工學(xué)院的AI實驗室推出PLACE大規(guī)模場景數(shù)據(jù)庫，推動深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模場景分類的應(yīng)用，使得研究人員可以直接利用場景數(shù)據(jù)而無需借助Imagenet訓(xùn)練場景分類的深度模型。許多在物體分類中表現(xiàn)優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu)如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在場景分類中取得了良好的效果。研究表明，Dropout和多尺度數(shù)據(jù)增強等策略有助于深度網(wǎng)絡(luò)的訓(xùn)練，可以緩解網(wǎng)絡(luò)過擬合問題；Relaybackpropagation等方法可以提升場景分類深度網(wǎng)絡(luò)的性能。與傳統(tǒng)手工設(shè)計的特征相比，深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的場景特征表達能力豐富，語義性更強，因此可以在識別任務(wù)中取得更好的效果。

圖6知識引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)

行為識別

行為識別是計算機視覺領(lǐng)域的重要問題。近年來，研究人員逐步將深度神經(jīng)網(wǎng)絡(luò)引入視頻的分析與理解中，使其成為行為識別研究中的一個新的研究方向。Karpathy等提出一個卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN），通過不同的時序融合策略，實現(xiàn)對視頻中的行為識別。然而，此模型盡管利用海量數(shù)據(jù)（sports-1M）進行預(yù)訓(xùn)練，行為識別的精準性仍有待提高。

另一流行的方法是3DCNN，此類方法通過對標(biāo)準2DCNN在時間軸上的擴展，實現(xiàn)對視頻的時空建模。但是，巨大的訓(xùn)練復(fù)雜度需要海量數(shù)據(jù)的支撐或3D卷積核的分解。牛津大學(xué)提出一個雙流CNN框架以避免3DCNN的訓(xùn)練問題。通過外形流（Appearancestream）與運動流（MotionStream）CNN的獨立設(shè)計，此框架在標(biāo)準數(shù)據(jù)庫UCF101與HMDB51中實現(xiàn)了精準的行為識別。然而，運動流CNN的輸入為疊加光流，這使得此框架只能捕捉住短時運動信息，而忽略視頻長時運動信息的理解。為進一步改進此結(jié)構(gòu)的識別精準性，作者團隊提出軌跡池化的深度描述子（Trajectory-pooledDeepDescriptors），該方法為融合深度模型與傳統(tǒng)軌跡特征提供了一種新機制，實驗表明這種深度軌跡特征TDD較傳統(tǒng)手工設(shè)計的特征和傳統(tǒng)深度模型具有更強的表示能力和區(qū)分性，可明顯提高視頻分類的正確率。人們還開發(fā)了視頻關(guān)鍵域挖掘的深度模型，以及時間分割神經(jīng)網(wǎng)絡(luò)，以提高此類框架的時空建模能力。另外，還開發(fā)了增強運動向量卷積神經(jīng)網(wǎng)絡(luò)EMV-CNN，利用運動向量替代需要大量運算的光流，提速20倍以上。遞歸神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork，RNN），特別是長短時記憶模型（LongShort-TermMemory，LSTM）在各種序列建模任務(wù)中取得的成功，使得基于深度學(xué)習(xí)的行為識別方法逐步向序列建模方向發(fā)展。一種常見的訓(xùn)練方法是利用雙流CNN提取的特征作為LSTM的輸入進行序列模型的訓(xùn)練。

圖7軌跡采樣的深度卷積視頻特征

除此之外，深度學(xué)習(xí)還在圖像恢復(fù)和超分辨率、圖像質(zhì)量評價、語義分割與解析、圖像內(nèi)容文本生成、醫(yī)學(xué)圖像分析等許多任務(wù)中取得了較傳統(tǒng)方法更好的結(jié)果，大大推動了相互領(lǐng)域技術(shù)和方法的發(fā)展。

發(fā)展趨勢

深度學(xué)習(xí)方法雖然取得了重要的進展，但在計算機視覺的許多應(yīng)用中仍然面臨巨大的挑戰(zhàn)，這主要體現(xiàn)在以下幾個方面：

首先，目前的深度學(xué)習(xí)方法往往依賴大規(guī)模數(shù)據(jù)進行訓(xùn)練。但并非所有的視覺問題都有充足的訓(xùn)練樣本，如特定人或物體的檢索，罕見物種的識別、醫(yī)學(xué)圖像中的稀有病例等，訓(xùn)練數(shù)據(jù)可能非常稀少或者收集大量樣本的代價會很大。于此相對應(yīng)，人的視覺系統(tǒng)僅需要少量樣本就可以識別類別，這很多程度是因為人可以復(fù)用在其他領(lǐng)域?qū)W習(xí)所得知識和經(jīng)驗。近年來小數(shù)據(jù)樣本（Smalldataset）的學(xué)習(xí)越來越引起研究人員的關(guān)注，如何利用小數(shù)據(jù)樣本來進行有效的深度學(xué)習(xí)，是一個有待解決的挑戰(zhàn)性問題。

其次，深度卷積網(wǎng)絡(luò)采用誤差反向傳播算法進行參數(shù)學(xué)習(xí)，這就要求訓(xùn)練數(shù)據(jù)有明確和豐富的監(jiān)督信息。但在許多實際問題中，對圖像進行詳細、精確的標(biāo)定極為耗時（如場景解析中的像素級標(biāo)簽、視頻中精細的時空標(biāo)定等）；并且，許多訓(xùn)練數(shù)據(jù)中監(jiān)督信息缺失或監(jiān)督信息包含噪聲（如從互聯(lián)網(wǎng)中收集的照片）。如何利用弱監(jiān)督、噪聲監(jiān)督、非監(jiān)督統(tǒng)信息來訓(xùn)練深度網(wǎng)絡(luò)，對利用大量標(biāo)定不完全的數(shù)據(jù)具有重要的實際意義。

最后，深度神經(jīng)網(wǎng)絡(luò)往往規(guī)模巨大、參數(shù)眾多。以AlexNet網(wǎng)絡(luò)為例，雖然輸入圖像已經(jīng)被縮小到224×224，但模型仍包含六千萬的參數(shù)。這使得深度神經(jīng)網(wǎng)絡(luò)較難應(yīng)用于計算和存儲資源受限的場合如移動終端、嵌入式系統(tǒng)等。同時，也使得人們很難把高分辨率的圖像直接作為深度網(wǎng)絡(luò)的輸入。如何對復(fù)雜深度網(wǎng)絡(luò)模型進行壓縮和加速，降低運算和存儲消耗，對解決深度學(xué)習(xí)方法資源受限的難題具有現(xiàn)實意義。

標(biāo)簽：

分享到：

上一篇：柔性臂振動抑制的新型控制策...

下一篇：雙飛輪移動機器人非線性控制研究

中國傳動網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點