国产在线视频福利资源站,8090yy成年在线看片无码,欧美日韩亚洲区久久综合

融合深度圖像的卷積神經(jīng)網(wǎng)絡(luò)語義分割方法

文：王孫平，陳世峰（中國科學(xué)院深圳先進技術(shù)研究院，中國科學(xué)院大學(xué)）2018年第六期

摘要： 該文提出了一種基于深度學(xué)習(xí)框架的圖像語義分割方法，通過使用由相對深度點對標(biāo)注訓(xùn)練的網(wǎng)絡(luò)模型，實現(xiàn)了基于彩色圖像的深度圖像預(yù)測，并將其與原彩色圖像共同輸入到包含帶孔卷積的全卷積神經(jīng)網(wǎng)絡(luò)中?？紤]到彩色圖像與深度圖像作為物體不同的屬性表征，在特征圖上用合并連接操作而非傳統(tǒng)的相加操作對其進行融合，為后續(xù)卷積層提供特征圖輸入時保持了兩種表征的差異。在兩個數(shù)據(jù)集上的實驗結(jié)果表明，該法可以有效提升語義分割的性能。

關(guān)鍵詞： 語義分割；深度學(xué)習(xí)；深度圖像

中圖分類號 TG 156 文獻標(biāo)志碼 A

1、引言

圖像的語義分割是計算機視覺中的一個基礎(chǔ)問題，作為圖像理解的重要一環(huán)，在自動駕駛系統(tǒng)、地理信息系統(tǒng)、醫(yī)療影像分析及機械臂物體抓取等實際應(yīng)用中都有關(guān)鍵作用。其中，地理信息系統(tǒng)中的衛(wèi)星遙感圖像可使用語義分割的方法自動識別道路、河流、建筑物、植物等。在無人駕駛系統(tǒng)中，車載攝像頭和激光雷達采集的圖像，經(jīng)語義分割可以發(fā)現(xiàn)道路前方的行人、車輛等，以輔助駕駛和避讓。在醫(yī)療影像分析領(lǐng)域，語義分割主要用于腫瘤圖像分割和齲齒診斷等。

圖像的語義分割任務(wù)是指為一幅輸入圖像的每個像素分配一個語義類別，從而完成像素級別的分類。傳統(tǒng)的語義分割主要使用手工設(shè)計的特征和支持向量機、概率圖模型等方法。隨著深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)中刷新多項記錄，包括圖像分類[1-3]、物體檢測[4-6]等，深度學(xué)習(xí)的方法也在語義分割任務(wù)中被廣泛使用[7-9]。
卷積神經(jīng)網(wǎng)絡(luò)本身具有一定的對局部圖像變換的不變性，可以很好地解決圖像分類問題。但在語義分割任務(wù)中，分類的同時還需要得到精確的位置，這與局部圖像變換的不變性相矛盾。在典型的圖像分類模型中，多層網(wǎng)絡(luò)組成了一個從局部到全局的金字塔結(jié)構(gòu)。其中，頂層的特征圖分辨率最低，雖然它包含全局的語義信息，但卻無法完成精確的定位。全卷積神經(jīng)網(wǎng)絡(luò)[7]利用端到端、像素到像素的方法進行訓(xùn)練，對于頂層特征圖定位不夠精細的問題，采用跳躍結(jié)構(gòu)綜合了淺層精細的表觀信息和深層粗糙的語義信息。

Chen 等[8]使用了另一種方案，直接在網(wǎng)絡(luò)結(jié)構(gòu)中減少了下采樣的操作以得到更高的分辨率，并且利用了帶孔的卷積，在不增加網(wǎng)絡(luò)參數(shù)數(shù)量的前提下增大卷積核的感受野，從而獲取更多關(guān)于圖像像素的上下文信息。在信號處理領(lǐng)域，類似的方法最初用于非抽樣小波變換的高效計算[10]。此外，還使用全連接的條件隨機場方法[11]對卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果進行后處理，達到了更精細的分割結(jié)果。

Zhao 等[12]在帶孔卷積的網(wǎng)絡(luò)模型基礎(chǔ)上，提出了金字塔池化模塊。該研究使用全局平均池化(Global Average Pooling，GAP)操作結(jié)果作為一個全局的上下文信息表征，與之前的特征圖連接，使組合后的特征圖同時包含全局的上下文信息和局部信息，是目前在 Pascal VOC 2012 數(shù)據(jù)集[13]上分割結(jié)果最好的方法之一。

圖像中物理屬性(如深度、表面法向量、反射率) 的估計屬于中層視覺任務(wù)，并可對高層視覺任務(wù)有所幫助。目前已經(jīng)有許多數(shù)據(jù)驅(qū)動的深度估計方法[14-17]被提出，但這些方法受限于由深度傳感器采集的圖像數(shù)據(jù)集。盡管近年來消費級深度圖像采集設(shè)備，如微軟 Kinect、華碩 Xtion Pro 和英特爾 RealSense 等得到了大量使用，但仍主要局限于室內(nèi)場景。對于鏡面反射、透明或較暗物體等情況，常常會得到失敗的結(jié)果。因此，在非受限的場景中難以用深度傳感器得到可靠的深度圖像。而對于語義分割任務(wù)而言，明確、清晰的邊緣比精確的深度測量值本身更重要。有經(jīng)驗證據(jù)表明，相對于場景中某點的測量值，人類更擅長于估計兩點之間的次序關(guān)系[18]。對于圖像中兩點的深度而言，“相等”“更深”“更淺”三種關(guān)系具有對單調(diào)變換的不變性，而且由人類對其標(biāo)注，不存在場景受限的問題。Chen 等[19]構(gòu)建了一個人類標(biāo)注的“相對深度”點對數(shù)據(jù)集，并提出了一種以此標(biāo)注端到端的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，從彩色圖像預(yù)測深度圖像的方法，顯著改善了非受限場景下的單圖深度感知。本文提出將彩色圖像預(yù)測出的深度圖像融入語義分割的卷積神經(jīng)網(wǎng)絡(luò)，利用深度圖像的特性改善分割性能。

本文的主要創(chuàng)新點為：(1)使用從彩色圖像預(yù)測的深度圖像作為語義分割網(wǎng)絡(luò)的輸入；(2) 用多分支輸入、特征圖合并連接融合深度圖像特征的方法改善語義分割性能。實驗結(jié)果表明，融合深度圖像的特征可以顯著提升語義分割性能。

2、融合深度圖像的語義分割

2.1語義分割的卷積神經(jīng)網(wǎng)絡(luò)

典型的用于分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)主要包含卷積層、激活函數(shù)、池化層和全連接層。一張輸入圖像經(jīng)過網(wǎng)絡(luò)由全連接層輸出一個一維向量，再使用 Softmax 函數(shù)歸一化后作為物體分類的得分。語義分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)利用分類網(wǎng)絡(luò)預(yù)訓(xùn)練得到的權(quán)重參數(shù)，采用全卷積的網(wǎng)絡(luò)結(jié)構(gòu)，直接對輸入的三通道彩色圖像和像素級的標(biāo)注掩膜進行端到端的訓(xùn)練。由于取消了全連接層，可以適應(yīng)任意尺寸的輸入圖像，并輸出與之相同尺寸的分割結(jié)果。

卷積神經(jīng)網(wǎng)絡(luò)某一層輸出的特征圖中像素的位置對應(yīng)于其在原圖像中的位置稱為“感受野”。由于網(wǎng)絡(luò)結(jié)構(gòu)中存在池化層或卷積層的下采樣操作，最后卷積層輸出的特征圖分辨率往往很低。如果減少下采樣操作來增加最后一個卷積層的特征圖分辨率，那么會使卷積核的感受野變小，并帶來更大的計算代價。而帶孔的卷積操作在不改變網(wǎng)絡(luò)權(quán)重參數(shù)數(shù)量的前提下，可以增大卷積核的感受野。圖 1(a)為卷積核尺寸為 3 的普通卷積操作。圖 1(b)是比率參數(shù) r 為 2 的帶孔卷積操作，在與圖 1(a)相同的參數(shù)數(shù)量情況下，處理并輸出了更高分辨率的特征圖。

對于一個一維的信號輸入x[i] 和一個長度為k的卷積核 w[k]比率參數(shù)為 r 的條件下，帶孔卷積的輸出y[i] 定義如下：

其中，比率參數(shù) r 表示對輸入信號的采樣步長，普通卷積可視為比率參數(shù) r＝1 的特例。
本文使用的語義分割網(wǎng)絡(luò)在使用帶孔卷積的基礎(chǔ)上，進行全局平均池化操作。其意義首先在于將特征圖的所有信息合并到多個通道的單個點，形成一種全局的上下文先驗信息；然后，再將其縮放回原特征圖大小，與原特征圖連接形成雙倍通道數(shù)量的特征圖，經(jīng)過若干卷積層輸出分割結(jié)果。由于特征圖綜合了這樣的全局上下文信息，分割結(jié)果可得到明顯改善[12]。

圖 2 是本文使用語義分割模型的網(wǎng)絡(luò)結(jié)構(gòu)。其中，“彩色圖像網(wǎng)絡(luò)”以 VGG-16[2]作為基礎(chǔ)模型，將 conv5 替換成 3 個比率參數(shù)為 2 的帶孔卷積層，conv6 為一個比率參數(shù)為 12 的帶孔卷積層，最后輸出通道數(shù)量為 256 的特征圖。“深度圖像網(wǎng)絡(luò)”分支僅包含 3 個卷積核尺寸為 3 的普通卷積層，通道數(shù)分別為 64、128、256。兩個分支分別進行全局平均池化、縮放到原尺寸及合并連接操作，得到 512 個通道的特征圖。網(wǎng)絡(luò)中其他部分的作用在下面幾個小節(jié)中介紹。

2.2從彩色圖像預(yù)測深度圖像

目前使用稀疏的“相對深度”標(biāo)注進行學(xué)習(xí)并預(yù)測出稠密的深度圖像主要有兩種方法，分別由 Zoran 等[20]和 Chen 等[19]提出。其中，Zoran 等[20]首先訓(xùn)練一個在圖像的超像素中心之間預(yù)測深度次序的分類器，然后用能量最小化的方法恢復(fù)整體的深度，使這些次序關(guān)系達到一致，最后在超像素中進行插值來得到像素級別的深度圖像。Chen 等[19]直接使用全卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了彩色圖像到深度圖像的端到端訓(xùn)練，并提出了一種使用相對深度標(biāo)注來訓(xùn)練網(wǎng)絡(luò)的方法。對于相對深度標(biāo)注需要設(shè)計一個合適的損失函數(shù)，基于這樣的原則：真實深度次序為“相等”時，預(yù)測的深度值差距越小越好；否則差距越大越好。假設(shè)訓(xùn)練集的圖像為 I，對其的K次查詢R={(i_k,j_k,r_k)},k-1,...,k。其中，i_k,j_k分別是第k次查詢中兩個點的位置。r_k{+1,-1,0}是對兩點深度次序關(guān)系的標(biāo)注，預(yù)測的圖像深度為z，則i_k、j_k對應(yīng)的深度值為a_ik、z_jk。定義如下?lián)p失函數(shù)：

其中，φ_k,(I,i_k,j_k,r,z)是第k次查詢的損失。

對于人類標(biāo)注的相對深度點對，只需直接使用這個損失函數(shù)。對于深度傳感器獲取的深度圖像，隨機采樣若干個點對即可轉(zhuǎn)換為相同的形式。本文使用 Chen 等[19]的“相對深度”網(wǎng)絡(luò)模型從彩色圖像預(yù)測深度圖像。該模型使用一種“沙漏”形的網(wǎng)絡(luò)結(jié)構(gòu)[21]，首先用深度傳感器采集深度圖像數(shù)據(jù)集進行預(yù)訓(xùn)練，然后在相對深度點對數(shù)據(jù)集上精調(diào)，預(yù)測的深度圖像如圖 3(b) 所示。

相對深度的標(biāo)注點對選擇在很大程度上會影響網(wǎng)絡(luò)訓(xùn)練的結(jié)果。如果隨機在二維平面內(nèi)選取兩個點，會造成嚴(yán)重的偏置問題[19]：假設(shè)一個算法簡單地認(rèn)為底部的點比上方的點深度更近，有 85.8% 的概率會與人類標(biāo)注的結(jié)果相同。一個更好的采樣方法是從同一水平線上隨機選取兩個點，但這同樣會造成簡單認(rèn)為中心的點深度更近的算法與人類標(biāo)注結(jié)果有 71.4% 的概率相同。因此，一個合適的采樣策略是從一條水平線上隨機選取兩個與其水平線中心對稱的點，這樣左邊的點比右邊的點深度更近的概率為 50.03%。

2.3彩色與深度圖像特征的融合

獲得了估計的深度圖像后，如何將深度圖像與彩色圖像的特征融合也是一個重要問題。一種簡單的方法是將彩色圖像的 3 個通道與深度圖像的 1 個通道堆疊，形成 4 個通道的輸入。然而，深度圖像對物體的幾何意義與彩色圖像代表的光學(xué)意義并不相同，Long 等[7]實驗也表明這種方式并不能對性能有明顯的改善。Gupta 等[22]提出了一種由深度信息導(dǎo)出的稱為 HHA 的表征，由水平視差、距地面高度和局部表面法線與重力方向夾角組成，取得了更好的結(jié)果。但這種表征過于復(fù)雜，且未包含比深度圖像本身更多的信息[23]。本文提出的融合方法是：首先，分別用兩個網(wǎng)絡(luò)分支處理彩色圖像和深度圖像，得到 a 和 b 個通道的特征圖；然后，用類似 PSPNet[12] 中金字塔池化模塊的合并連接操作將兩個分支的特征圖合并成 a＋b 個通道的特征圖；最后，經(jīng)過若干卷積層輸出分割結(jié)果。與特征圖融合常用的相加操作相比，用合并連接操作可以使兩個分支網(wǎng)絡(luò)輸出的特征更加獨立，而非只為后續(xù)卷積層提供相同表征形式的特征圖。如圖 2 所示，將彩色圖像和深度圖像分支輸出的兩個通道數(shù)為 512 的特征圖合并連接，得到 1 024 個通道的特征圖。

初步實驗發(fā)現(xiàn)，使用與最后卷積層輸出的相同尺寸的較低分辨率深度圖像和少量卷積層，可以取得比使用較高分辨率的深度圖像和更多卷積層與池化層更好的結(jié)果。一方面，由于深度圖像的預(yù)測網(wǎng)絡(luò)輸出的分辨率本身較低，高分辨率的深度圖像僅僅是通過縮放得到；另一方面，不使用池化層更有利于網(wǎng)絡(luò)輸入和輸出像素之間的位置對應(yīng)。

3、實驗

3.1數(shù)據(jù)集

本文在 Pascal VOC 2012 數(shù)據(jù)集和 SUN RGB-D 數(shù)據(jù)集[24]上進行實驗。其中，Pascal VOC 2012 數(shù)據(jù)集的圖像包含 20 種類別的物體和一個背景類別，語義分割數(shù)據(jù)集被分成 3 個部分：訓(xùn)練集(1 464 張圖像)、驗證集(1 449 張圖像)和測試集(1 456 張圖像)。其中，驗證集和測試集不包含訓(xùn)練集的圖像。我們遵循慣例使用增加的包含 10 582 張訓(xùn)練圖像的標(biāo)注數(shù)據(jù)[25]，在1 449 張圖像上進行驗證。SUN RGB-D 數(shù)據(jù)集是一個適用于場景理解的數(shù)據(jù)集，包含 4 種不同傳感器獲取的彩色圖像與深度圖像，包括 NYU Depth v2[26]，Berkeley B3DO[27]和 SUN3D[28]等數(shù)據(jù)集，共有 10 335 張 RGB-D 圖像和其像素級的語義分割標(biāo)注，其中包含 5 285 張訓(xùn)練圖像和5 050 張測試圖像。

3.2數(shù)據(jù)集處理

本文對兩個數(shù)據(jù)集采取了適合自然圖像的常用數(shù)據(jù)增強方法：隨機縮放、鏡像和裁剪填充。其中，(1)隨機縮放：將圖像隨機縮放為原來的 0.5～1.5 倍；(2)鏡像：以 50% 的概率對圖像進行水平翻轉(zhuǎn)；(3)裁剪填充：以 500×500 的固定尺寸裁剪或填充圖像(若尺寸不足則填充灰色)。網(wǎng)絡(luò)的輸入包括彩色圖像和深度圖像。由于Pascal VOC 2012 數(shù)據(jù)集不含深度傳感器采集的深度圖像，本文使用從彩色圖像預(yù)測得到的深度圖像作為輸入。對于 SUN RGB-D 數(shù)據(jù)集，本文對深度傳感器采集的深度圖像、彩色圖像預(yù)測得到的深度圖像均作為輸入進行了實驗。

3.3實驗過程及參數(shù)

本文使用如圖 2 所示的網(wǎng)絡(luò)結(jié)構(gòu)，首先使用深度預(yù)測的網(wǎng)絡(luò)從彩色圖像預(yù)測出深度圖像，然后將彩色圖像和深度圖像分別輸入兩個卷積神經(jīng)網(wǎng)絡(luò)分支。其中，彩色圖像的分支是以 VGG- 16 模型為基礎(chǔ)的包含帶孔卷積的網(wǎng)絡(luò)，權(quán)重由ImageNet[29]上預(yù)訓(xùn)練的 VGG-16[2]的權(quán)重進行初始化，其他卷積層均為 Xavier 隨機初始化[30]。兩個網(wǎng)絡(luò)分支經(jīng)過合并連接后，再通過兩個卷積層輸出分割結(jié)果。

網(wǎng)絡(luò)訓(xùn)練的批尺寸(Batch Size)參數(shù)為 10，輸入的彩色圖像大小為 500×500，深度圖像和用于對比的灰度圖像大小為 63×63。初始學(xué)習(xí)率為 0.000 1(最后一個層為 0.001)，按照多項式函數(shù)衰減，訓(xùn)練迭代 20 000 次后停止。動量參數(shù)為0.9，權(quán)重衰減參數(shù)為 0.000 5。實驗均在 NVIDIA GeForce TITAN X GPU 上進行。分割性能以各個類別的像素交并比 IoU(Intersection-over-Union得分平均數(shù)作為評價指標(biāo)。本文在兩個數(shù)據(jù)集上設(shè)計了 5 個實驗，將輸入圖像分為：

(1)VOC 數(shù)據(jù)集，彩色圖像和預(yù)測的深度圖像；

(2)VOC 數(shù)據(jù)集，彩色圖像和灰度圖像；

(3)SUN 數(shù)據(jù)集，彩色圖像和預(yù)測的深度圖像；

(4)SUN 數(shù)據(jù)集，彩色圖像和深度傳感器采集的深度圖像；

(5)SUN 數(shù)據(jù)集，彩色圖像和灰度圖像。

其中，灰度圖像由彩色圖像轉(zhuǎn)換而成，用于替代深度圖像輸入網(wǎng)絡(luò)作為對照。

4、實驗結(jié)果

4.1Pascal VOC 數(shù)據(jù)集實驗對比

為了對比有無深度圖像信息的效果，我們比較了實驗(1)、(2)中不同類別的分割性能，結(jié)果如表 1 所示。由表 1 可以看出，對于大多數(shù)類別，融合預(yù)測的深度圖像特征都能對分割性能有效提升，只有顏色特征明顯、圖像中尺寸較小的盆栽植物(plant)類別下降了 0.1%。原因是深度預(yù)測模型的輸出分辨率較低，對于圖像中尺寸小的物體深度預(yù)測結(jié)果較差。其中，結(jié)構(gòu)特征明顯且圖像中尺寸較大的物體提升明顯，如飛機(aero)、船(boat)和沙發(fā)(sofa)等，與深度圖像本身物理意義的作用相符，證實了該方法的有效性。Pascal VOC 數(shù)據(jù)集上的分割結(jié)果如圖 3 所示。由圖 3 可以觀察到，即使對于室外的場景，深度圖像仍能捕獲到清晰的物體輪廓。在包含深度圖像輸入的情況下，由于深度圖像較為清晰的邊緣，物體邊界處的分割也達到了更好的效果。

4.2SUN RGB-D 數(shù)據(jù)集實驗對比

表 2 比較了在 SUN RGB-D 數(shù)據(jù)集上預(yù)測的深度圖像、使用傳感器采集的深度圖像和無深度信息 3 種情況下，即實驗(3)、(4)、(5)的分割結(jié)果。由圖 3 可以看出，使用深度圖像的分割結(jié)果較好，而且使用預(yù)測的深度圖像結(jié)果稍好于使用傳感器深度圖像的結(jié)果。這說明對于語義分割任務(wù)，預(yù)測的深度圖像能夠起到替代傳感器采集的深度圖像的作用。

SUN RGB-D 數(shù)據(jù)集上的分割結(jié)果如圖 4 所示。由圖 4 可以看到，第一行深度圖像能清晰地分辨出椅腳，表明使用深度圖像的實驗對椅腳部分的分割效果較好。第二、三行的傳感器深度圖像存在一些像素值缺失的區(qū)域和噪聲，而預(yù)測的深度圖像雖然深度測量值不夠精確，但保持了比較完整的物體形態(tài)。這是預(yù)測的深度圖像能夠取得稍好的分割結(jié)果的一個原因。

5、討論

圖像中物體的語義和深度具有密切的聯(lián)系，獲取并利用深度圖像可以對語義分割任務(wù)起到很大的輔助作用。但非受限環(huán)境下深度圖像的獲取是一個挑戰(zhàn)。深度傳感器獲取的深度圖像數(shù)據(jù)集局限于室內(nèi)環(huán)境和固定場景(如公路等)，而且目前在語義分割任務(wù)中對深度信息的利用方法仍存在很多缺陷[22,23]。本文使用卷積神經(jīng)網(wǎng)絡(luò)從彩色圖像中預(yù)測出深度圖像，以帶孔卷積的語義分割網(wǎng)絡(luò)為基礎(chǔ)設(shè)計了一個多分支網(wǎng)絡(luò)，用特征圖合并連接的方式融合彩色圖像和深度圖像的特征進行語義分割。帶孔的卷積在不增加網(wǎng)絡(luò)參數(shù)數(shù)量的前提下增大了卷積核的感受野，使其包含更多的圖像上下文信息，從而改善分割性能[8]。在其他條件相同的情況下，本文提出的含有深度圖像信息與合并連接操作的網(wǎng)絡(luò)和不含深度圖像信息(以灰度圖像作為替代)的網(wǎng)絡(luò)相比，在 Pascal VOC 數(shù)據(jù)集上的均交并比(mIoU)提升了 1.1%。在 SUN RGB-D 數(shù)據(jù)集上的分割結(jié)果表明，使用預(yù)測的深度圖像訓(xùn)練的網(wǎng)絡(luò)與使用傳感器獲取的深度圖像的網(wǎng)絡(luò)性能接近，且都好于不含深度圖像的網(wǎng)絡(luò)。這說明預(yù)測的深度圖像可以代替?zhèn)鞲衅鞑杉纳疃葓D像改善語義分割的結(jié)果。但當(dāng)前方案所使用的相對深度點對數(shù)據(jù)集標(biāo)注數(shù)量較少，網(wǎng)絡(luò)模型也有很大的改進空間[19]。在卷積神經(jīng)網(wǎng)絡(luò)中利用深度圖像仍然是一個非常值得研究的問題。

6、結(jié) 論

本文提出一種多分支網(wǎng)絡(luò)和特征圖連接的方法融合深度圖像特征，使用彩色圖像預(yù)測的深度圖像解決非受限場景下深度圖像獲取困難的問題。利用金字塔池化模塊中使用的合并連接操作連接彩色圖像和深度圖像的特征圖，使兩種類型的特征互為補充且保持獨立的表征。在兩個數(shù)據(jù)集上的分割結(jié)果表明，該方法能夠利用深度圖像細化物體的邊緣，提升語義分割的性能。目前，仍然沒有很好的方法在卷積神經(jīng)網(wǎng)絡(luò)中充分利用深度圖像，下一步將嘗試對語義分割模型的損失函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)進行改進。

參考文獻
[1]Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks [C] // Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012: 1097-1105.
[2]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2014, arXiv:1409.1556.
[3]He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[4]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [J]. Computer Science, 2013: 580-587.
[5]Girshick R. Fast R-CNN [J]. Computer Science, 2015, arXiv:1504.08083.
[6]Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[7]Long J, Shelhamer E, Darrell T. Fully convolutional

networks for semantic segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[8]Chen LC, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 40(4): 834-848.
[9]Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks [J]. Computer Science, 2015, doi: 10.1109/ICCV.2015.179.
[10]Holschneider M, Kronland-Martinet R, Morlet J, et al. A real-time algorithm for signal analysis with the help of the wavelet transform [M] // Wavelets. Springer Berlin Heidelberg, 1990: 286-297.
[11]Krähenbühl P, Koltun V. Efficient inference in fully connected CRFs with gaussian edge potentials [J]. Computer Science, 2012: 109-117.
[12]Zhao HS, Shi JP, Qi XJ, et al. Pyramid scene parsing network [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6230-6239.
[13]Everingham M, Gool LV, Williams CKI, et al. The pascal visual object classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[14]Karsch K, Liu C, Kang SB. Depth transfer: depth extraction from videos using nonparametric sampling [M] // Dense Image Correspondences for Computer Vision. Springer International Publishing, 2016: 775-788.
[15]Saxena A, Sun M, Ng AY. Make3D: learning 3D scene structure from a single still image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[16]Eigen D, Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture [C] // IEEE International Conference on Computer Vision, 2015: 2650-2658.
[17]Li B, Shen CH, Dai YC, et al. Depth and surface normal estimation from monocular images using regression on deep features and hierarchical CRFs
[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1119-1127.
[18]Todd JT, Norman JF. The visual perception of 3-D shape from multiple cues: are observers capable

of perceiving metric structure? [J]. Perception & Psychophysics, 2003, 65(1): 31-47.
[19]Chen WF, Fu Z, Yang DW, et al. Single-image depth perception in the wild [C] // Advances in Neural Information Processing Systems, 2016: 730-738.
[20]Zoran D, Isola P, Krishnan D, et al. Learning ordinal relationships for mid-level vision [C] // IEEE International Conference on Computer Vision (ICCV), 2015: 388-396.
[21]Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation [M] // Stacked Hourglass Network for Human Pose Estimation. Springer International Publishing, 2016: 483-499.
[22]Gupta S, Girshick R, Arbeláez P, et al. Learning rich features from RGB-D images for object detection and segmentation [C] // European Conference on Computer Vision, 2014: 345-360.
[23]Hazirbas C, Ma L, Domokos C, et al. Fusenet: incorporating depth into semantic segmentation via fusion-based cnn architecture [C] // Asian Conference on Computer Vision, 2016: 213-228.
[24]Song SR, Lichtenberg SP, Xiao JX. SUN RGB-D: a RGB-D scene understanding benchmark suite [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[25]Hariharan B, Arbeláez P, Bourdev L, et al. Semantic contours from inverse detectors [C] // IEEE International Conference on Computer Vision (ICCV), 2011: 991-998.
[26]Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images [C] // European Conference on Computer Vision, 2012: 746-760.
[27]Janoch A, Karayev S, Jia Y, et al. A category- level 3D object dataset: putting the kinect to work
[C]// IEEE International Conference on Computer Vision, 2011: 1168-1174.
[28]Xiao JX, Owens A, Torralba A. SUN3D: a database of big spaces reconstructed using SfM and object labels [C] // IEEE International Conference on Computer Vision, 2013: 1625-1632.
[29]Russakovsky O, Deng J, Su H, et al. Imagenet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[30]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks [J] Journal of Machine Learning Research, 2010, 9: 249-256.

卷積神經(jīng)網(wǎng)絡(luò)，深度圖像

中傳動網(wǎng)版權(quán)與免責(zé)聲明：

凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。