您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 用于行人檢測的候選區(qū)域框提取方法

用于行人檢測的候選區(qū)域框提取方法

時間：2017-11-20 17:19:25來源：中國傳動網(wǎng)

導語：?近年來，區(qū)域卷積神經(jīng)網(wǎng)絡(R-CNN)在物體檢測任務中取得了巨大的成功。該深度模型需要先采用候選區(qū)域框提取方法獲得物體可能存在的位置

引言

行人檢測任務的目標是在圖像中檢測行人并確定行人的位置。隨著人工智能技術(shù)的發(fā)展，越來越多的研究人員關(guān)注這項任務并且做了很多相關(guān)的研究工作。準確的行人檢測方法可以應用于很多領(lǐng)域，例如智能輔助駕駛，智能視頻監(jiān)控和智能機器人等。

近年來，區(qū)域卷積神經(jīng)網(wǎng)絡(R-CNN)模型被廣泛應用于通用類物體檢測任務。有相關(guān)文獻提出了一種快速區(qū)域卷積神經(jīng)網(wǎng)絡(FastR-CNN)模型，在21類的物體檢測任務中取得了顯著的效果。這種模型首先使用候選區(qū)域框方法SelectiveSearch去預測物體可能存在的位置，然后再使用卷積神經(jīng)網(wǎng)絡對候選區(qū)域框進行進一步的精細分類和定位。受這種模型在通用類檢測中的啟發(fā)，我們試圖將這種方法應用于行人檢測。但是SelectiveSearch方法不是針對單一類的候選框提取方法，它會預測所有種類物體的可能位置，包括車輛，建筑等。因此生成的候選區(qū)域框存在很多的冗余，降低訓練的分類器的質(zhì)量。同時冗余的候選區(qū)域框會消耗較多的計算資源，降低卷積神經(jīng)網(wǎng)絡的訓練和測試的速度。在行人檢測中，只對行人類別生成候選區(qū)域框，并使用這種候選框訓練和測試卷積神經(jīng)網(wǎng)絡，理論上可以取得很好的檢測效果。

候選區(qū)域框提取在一定程度可以看作對物體的粗糙檢測。我們可以對圖像提取特征，并訓練一個判別行人的簡單分類器，使用分類器去生成候選區(qū)域框。這樣就可以實現(xiàn)只針對行人類別提取候選區(qū)域框的目的?；谶@個思想，本文提出了一種適用于行人檢測的候選框提取方法。我們將這種候選框提取方法與卷積神經(jīng)網(wǎng)絡模型結(jié)合起來，并應用于行人檢測。這種檢測方法主要分為兩步：1)使用候選框提取方法為每張圖像生成候選區(qū)域框；2)將圖像和它的候選區(qū)域框輸入到卷積神經(jīng)網(wǎng)絡中。網(wǎng)絡包含兩個輸出層。一個輸出行人類別的概率估計，另一個輸出四個實數(shù)表示行人邊界框的位置。

本文的模型和其他行人檢測方法相比取得了很好的檢測效果。在INRIA，PKU和ETH數(shù)據(jù)集上分別實現(xiàn)了14.1%，15.3%和45.6%的漏檢率。實驗結(jié)果表明，在行人檢測任務中我們的候選框提取方法要比SelectiveSearch更有效。同時，我們的方法去除了冗余的候選區(qū)域框，提高了卷積神經(jīng)網(wǎng)絡訓練和測試的速度。

背景

1.現(xiàn)有行人檢測算法的分類

現(xiàn)有的行人檢測算法通常會被分為兩類。第一類稱為傳統(tǒng)算法，這類方法從圖像中提取手工設(shè)計特征并訓練一個支持向量機(SVM)或增強(boosting)作為分類器。這些手工設(shè)計特征包括哈爾，梯度直方圖和局部二值模式等，在行人檢測表現(xiàn)出很好的性能。DPM在檢測中考慮了局部的區(qū)域特征以及區(qū)域間的形變。有相關(guān)文獻將上下文信息加入到模型中。另外，聚合通道特征將梯度直方圖和LUV顏色空間特征融合到一起用于行人檢測。文獻提出了一種有效的特征變換方法去除了局部特征間的關(guān)聯(lián)。

另一類行人檢測方法是采樣深度模型。深度模型可以從原圖像中學習特征，極大地提高了行人檢測算法的性能。從行人的不同身體部門學習特征來處理行人間的遮擋問題，卷積網(wǎng)絡方法采用卷積稀疏編碼無監(jiān)督地預訓練卷積神經(jīng)網(wǎng)絡，通過語義的特征優(yōu)化行人檢測效果。

2.候選框提取方法

由于物體可能是任意尺寸并且可能出現(xiàn)在圖像的任一位置，因此需要搜索整幅圖像來完成分類和定位?；瑒哟翱诜椒梢垣@得所有可能的物體位置，但是計算復雜度很高。最近，研究人員提出了其他幾種候選框提取方法，例如selectivesearch，bing和edgeboxes。Selectivesearch通過分割和相似度計算的方式提取候選區(qū)域框，區(qū)域框的質(zhì)量較好但是速度很慢。Bing使用正則梯度信息和二分操作生成候選區(qū)域框，速度較快但是質(zhì)量很差。Edgeboxes是在質(zhì)量和速度之間折中的一種算法。

這類方法生成的候選區(qū)域框包含了所有的種類，適用于通用類的檢測，但無法完成單一類的候選框提取。冗余的候選區(qū)域框會降低卷積神經(jīng)網(wǎng)絡的性能，并消耗更多的計算資源。行人檢測問題只需要針對行人類別生成候選區(qū)域框而無需其它物體的冗余信息，本文實現(xiàn)了一種基于行人檢測算法的候選區(qū)域框提取方法。我們將這種優(yōu)化的候選區(qū)域框提取方法和卷積神經(jīng)網(wǎng)絡結(jié)合起來，并將其應用于行人檢測。

提出的方法

1.方法概述

本文所提出的方法包括兩部分。第一部分是候選區(qū)域框的提取，第二部分是卷積神經(jīng)網(wǎng)絡模型。其中候選框提取方法采用聚合通道特征(ACF)，卷積神經(jīng)網(wǎng)絡模型基于文獻中的深度網(wǎng)絡結(jié)構(gòu)。網(wǎng)絡的輸入是原始的圖像和候選區(qū)域框。模型首先通過卷積和池化提取圖像的卷積特征，經(jīng)由興趣區(qū)域池化(RoI)層將候選區(qū)域框的卷積特征映射為固定長度的特征向量并被傳入全連接層。全連接層后面有兩個平行的輸出層，輸出行人檢測框的置信分數(shù)和坐標。

2.候選區(qū)域框提取

該候選區(qū)域框算法從圖像中提取10個通道的手工設(shè)計特征并訓練一個AdaBoost分類器。通道特征包括歸一化的梯度幅值，梯度方向(6bins)和LUV顏色通道。算法通過計算不同尺度下的通道特征構(gòu)建特征金字塔。不同尺寸下的特征不是直接計算，而是通過相鄰尺寸的特征近似計算獲得，其詳細過程如下文所述。

對于圖像I，設(shè)為任意低層次旋轉(zhuǎn)不變特征計算方法，圖像的一個通道計算方法為。通道C是像素級別的特征，C中每個像素都是從對應圖像I的圖像塊計算而來。設(shè)表示圖像I在s尺寸下的重采樣，，R表示采樣函數(shù)。當計算多尺寸圖像特征時，首先將圖像I在尺寸s下重采樣，之后通過近似計算得到的通道特征。近似計算方法如下：

是不同尺寸間的變換因子，每種通道。征類型對應一個。通用的特征金字塔方法通常是在每一個尺寸計算。這種近似計算的方法在框的提取速度。在候選區(qū)域框提取過程中，本文首先對圖像提取10通道的特征，然后使用近似計算得到不同圖像尺寸下的特征構(gòu)建特征金字塔。最后訓練了一個由2048個深度為2的分類樹組成的Adaboost分類器生成候選區(qū)域框。為了獲得足夠的候選區(qū)域框，我們降低了檢測的閾值。

圖1.卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)

網(wǎng)絡結(jié)構(gòu)

在這一部分，我們首先介紹采用的深度網(wǎng)絡模型的結(jié)構(gòu)，然后說明模型的損失函數(shù)。

本文的網(wǎng)絡結(jié)構(gòu)如圖1所示。網(wǎng)絡包含5個卷積層。每個卷積層分別有96，256，384，384和256個核函數(shù)。采用線性整流函數(shù)(ReLU)作為網(wǎng)絡的激活函數(shù)。每個卷積層后面連接了一個空間最大池化層。網(wǎng)絡可以輸入任意尺寸的圖像。經(jīng)過卷積和池化，得到圖像的卷積特征。在卷積特征傳入全連接層之前，興趣區(qū)域池化層會將卷積特征映射為固定長度的特征向量。分別使用標準差為0.01和0.001的高斯分布初始化用于分類和邊界框回歸的全連接層權(quán)重(weights)。偏置(bias)初始化為0。網(wǎng)絡的每一層權(quán)重的學習率為0.001，偏置的學習率為0.002。

全連接層后面連接了兩個平行輸出層。第一個輸出層輸出在行人和背景類上的概率值，用表示。其中和分別表示物體是背景和行人的概率值。通常，p通過在全連接層的兩個輸出加上softmax計算得到。第二個輸出層是在行人類上的邊界框回歸補償，使用表示。每個訓練的候選區(qū)域框都有一個類別標定u和邊界框目標v。我們使用了多任務損失函數(shù)L同時訓練分類和邊界框回歸：

其中是類別u的對數(shù)損失函數(shù)。第二個任務的損失函數(shù)是在類別u的邊界框上定義的，。當時，艾弗森括號指示函數(shù)值為1，其他值為0。按照慣例，通用背景類被標記為u=0。由于背景類的候選區(qū)域框沒有特定的標注，此時在損失函數(shù)中就將背景類的忽略不計。對于行人類的邊界回歸，使用如下?lián)p失函數(shù)：

其中參數(shù)控制兩個任務損失之間的平衡。標注的回歸目標v被歸一化為零均值和單位方差。在所有的實驗中，本文都設(shè)置。本文使用隨機梯度下降的方法最小化損失函數(shù)。

結(jié)束語

本文提出了一種單一類候選框提取方法與卷積神經(jīng)網(wǎng)絡結(jié)合的模型。該候選框提取算法從圖像中提取手工設(shè)計特征，并訓練AdaBoost分類器。本文所提出的方法不同于通用的候選框提取方法，可以只為行人類別生成候選區(qū)域框。本文還闡述了候選框提取算法的具體細節(jié)以及網(wǎng)絡的結(jié)構(gòu)。實驗的結(jié)果表明，本文的方法提高了候選框提取的質(zhì)量，在行人檢測上取得了很好的效果，同時縮短了網(wǎng)絡訓練和測試的時間。

標簽：

分享到：

上一篇：集成神經(jīng)網(wǎng)絡語音情感識別模...

下一篇：用于沖壓件3D檢測的高動態(tài)結(jié)...

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關(guān)資訊

技術(shù)熱點