基于關(guān)鍵點(diǎn)檢測(cè)二階段目標(biāo)檢測(cè)方法研究
文:王宏任 陳世峰 2021年第6期
1 引言
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中很常見的任務(wù)。根據(jù)有無(wú)提取候選區(qū)域 (Region Proposal),目標(biāo)檢測(cè)領(lǐng)域的檢測(cè)方法通常分為一階段 (One-stage) 檢測(cè)網(wǎng)絡(luò)和二階段 (Two-stage) 檢測(cè)網(wǎng)絡(luò)。其中,一階段檢測(cè)方法直接回歸物體的類別概率和位置坐標(biāo)值。常見的一階段算法包括:YOLOv1、YOLOv2、YOLOv3、SSD、DSSD 和 Retina-Net。二階段檢測(cè)方法的任務(wù)包括第一階段提取候選區(qū)域以及第二階段將候選區(qū)域送到分類器進(jìn)行分類與檢測(cè)。常見的二階段算法包括:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、Mask R-CNN 和Cascade R-CNN。與一階段檢測(cè)網(wǎng)絡(luò)相比,二階段檢測(cè)網(wǎng)絡(luò)的檢測(cè)精度更高,但速度慢于一階段檢測(cè)網(wǎng)絡(luò)。
另外,根據(jù)是否利用錨框 (Anchor) 提取候選目標(biāo)框,目標(biāo)檢測(cè)框架也可分為基于錨框的方法 (Anchor-based)、基于無(wú)錨框的方法 (Anchorfree) 以及兩者融合類。其中,基于錨框類算法有 Fast R-CNN、SSD、YOLOv2 和 YOLOv3;基于無(wú)錨框類算法有 CornerNet、ExtremeNet、CenterNet 和FCOS;融合基于錨框和基于無(wú)錨框分支的方法有 FSAF、GA- RPN 和 SFace。
目前, 所有的主流探測(cè)器, 如 Faster R-CNN、SSD、YOLOv2 和 YOLOv3 都依賴一組預(yù)先定義的錨框。其中,人們認(rèn)為錨框的使用是檢測(cè)器成功的關(guān)鍵。盡管這些主流探測(cè)器取得了巨大的成功,但基于錨框方法仍存在一些缺點(diǎn):(1) 即使經(jīng)過仔細(xì)的設(shè)計(jì),但由于錨框的尺度和長(zhǎng)寬比是預(yù)先設(shè)定的,檢測(cè)器在處理形狀變化較大的候選物體時(shí)也會(huì)遇到困難, 尤其是對(duì)于小物體,這無(wú)疑阻礙了檢測(cè)器的泛化能力;(2) 為了達(dá)到較高的召回率,需要在輸入圖像上密集放置錨框 ( 如對(duì)于短邊為 800 的圖像,在特征金字塔網(wǎng)絡(luò) (FPN) 中放置超過180k 的錨框 ),但大多數(shù)錨框在訓(xùn)練中被標(biāo)記為負(fù)樣本,而過多的負(fù)樣本會(huì)加劇訓(xùn)練中正負(fù)樣本之間的不平衡;(3) 錨框涉及復(fù)雜的計(jì)算,如計(jì)算與真實(shí)邊框 (Ground-truth) 的重疊度(Intersection over Union,IoU)。
為了克服基于錨框方法的缺點(diǎn),CornerNet 采用基于關(guān)鍵點(diǎn)檢測(cè)角點(diǎn)提取候選區(qū)域的方法:利用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)一個(gè)以左上角和右下角為一對(duì)關(guān)鍵點(diǎn)的目標(biāo)包圍框,通過將目標(biāo)作為成對(duì)的關(guān)鍵點(diǎn)進(jìn)行檢測(cè),消除了以往檢測(cè)器通常需要人為設(shè)計(jì)錨框的需要。然而,CornerNet 也存在一些問題: (1)CornerNet 對(duì)物體內(nèi)部信息的感知能力相對(duì)較弱,制約了CornerNet 的性能。(2) 在進(jìn)行關(guān)鍵點(diǎn)配對(duì)時(shí),CornerNet 認(rèn)為屬于同一類別的關(guān)鍵角點(diǎn)間應(yīng)盡可能靠近,屬于不同類別的關(guān)鍵角點(diǎn)間應(yīng)盡可能遠(yuǎn)離。但在實(shí)驗(yàn)過程中發(fā)現(xiàn),通過計(jì)算左上角點(diǎn)的嵌入向量及右下角點(diǎn)的嵌入向量間的距離來(lái)決定是否將兩個(gè)點(diǎn)進(jìn)行組合,經(jīng)常會(huì)發(fā)生配對(duì)錯(cuò)誤的情況。(3) 采用關(guān)鍵點(diǎn)配對(duì)的方式確定一個(gè)目標(biāo)的候選區(qū)域,會(huì)產(chǎn)生大量誤檢目標(biāo)的候選區(qū)域,這樣不僅會(huì)使檢測(cè)精度降低而且會(huì)花費(fèi)較長(zhǎng)時(shí)間。本文提出一種新的無(wú)錨框二階段目標(biāo)檢測(cè)算法對(duì)以上 3 個(gè)問題進(jìn)行優(yōu)化。
2 基于關(guān)鍵點(diǎn)目標(biāo)檢測(cè)方法
本文將 CornerNet 作為基準(zhǔn),提出一種基于無(wú)錨框 3 個(gè)關(guān)鍵點(diǎn)檢測(cè)的二階段目標(biāo)檢測(cè)網(wǎng)絡(luò)方法。如圖 1 所示:第一階段采用基于無(wú)錨框關(guān)鍵點(diǎn)檢測(cè)的方法分別檢測(cè)角點(diǎn)以及中心關(guān)鍵點(diǎn),同時(shí)判斷中心點(diǎn)是否落在中心區(qū)域以進(jìn)行誤檢候選區(qū)域的剔除,即提取候選區(qū)域;第二階段將第一階段過濾后保留下來(lái)的候選區(qū)域送到多元分類器中進(jìn)行分類與檢測(cè)。
圖 1 基于關(guān)鍵點(diǎn)檢測(cè)的二階段目標(biāo)檢測(cè)方法網(wǎng)絡(luò)框架
2.1 基于無(wú)錨框 3 個(gè)關(guān)鍵點(diǎn)檢測(cè)
為了檢測(cè)角點(diǎn),本文先采用基于 CornerNet 關(guān)鍵點(diǎn)檢測(cè)的方法來(lái)定位左上以及右下角點(diǎn);然后,通過角點(diǎn)池化生成左上角以及右下角兩個(gè)熱圖來(lái)代表不同類別關(guān)鍵點(diǎn)的位置;最后, 進(jìn)行角點(diǎn)關(guān)鍵點(diǎn)的偏移修正。
另外,為了加強(qiáng)網(wǎng)絡(luò)對(duì)物體內(nèi)部信息的感知能力,本文增加了中心關(guān)鍵點(diǎn)的檢測(cè)分支,并采用中心池化操作加強(qiáng)中心點(diǎn)的特征。同時(shí)定義了物體中心度的概念——設(shè)定中心度大于0.7 時(shí),可認(rèn)為中心關(guān)鍵點(diǎn)落在中心區(qū)域,很好地解決了不同尺寸物體中心區(qū)域的判定。最終,只有當(dāng)物體的中心點(diǎn)落在預(yù)測(cè)框的中心區(qū)域才進(jìn)行保留,否則去除。需要說明的是,當(dāng)中心關(guān)鍵點(diǎn)同時(shí)落在多個(gè)不同的預(yù)測(cè)框中時(shí),取中心度最大的那個(gè)預(yù)測(cè)框予以保留,并剔除多余的預(yù)測(cè)框,以減少誤檢框出現(xiàn)的概率。具體如圖 2 所示。
圖 2 利用中心關(guān)鍵點(diǎn)過濾誤檢候選區(qū)域
2.1.1 角點(diǎn)關(guān)鍵點(diǎn)檢測(cè)
關(guān)于角點(diǎn)關(guān)鍵點(diǎn)的檢測(cè),本文借鑒 CornerNet 來(lái)定位被檢對(duì)象的兩個(gè)角點(diǎn)關(guān)鍵點(diǎn)——分別位于其左上角和右下角。計(jì)算 3 個(gè)熱圖 ( 即左上的熱圖和右下的熱圖以及中心點(diǎn)的熱圖, 熱圖上的每個(gè)值表示一個(gè)角的關(guān)鍵點(diǎn)出現(xiàn)在相應(yīng)位置的概率), 其分辨率變成原始圖像分辨率的 1/4。其中,熱圖有兩個(gè)損失, 用來(lái)定位熱圖上的左上角關(guān)鍵點(diǎn), 用來(lái)定位熱圖上的右下角關(guān)鍵點(diǎn)和偏移損失,具體如公式 (1) ~ (3)。在計(jì)算熱圖之后,從所有熱圖中提取固定數(shù)量的關(guān)鍵點(diǎn) ( 左上角 k 個(gè),右下角 k 個(gè) ),每個(gè)角點(diǎn)的關(guān)鍵點(diǎn)都配有一個(gè)類標(biāo)簽。
(1)
其中,C 為目標(biāo)的類別;H、W 分別為熱圖的高和寬;pcij 為預(yù)測(cè)熱圖中 c 類在位置 (i, j) 的得分;ycij 為加了非歸一化高斯熱圖;N 為圖像中物體的數(shù)量;α 和 β 為控制每個(gè)點(diǎn)貢獻(xiàn)的超參數(shù)。
(2)
(3)
其中,OK是偏移量; 表示在取整計(jì)算時(shí)丟失的精度信息;xk 和 yk 為角 k 的 x 和 y 坐標(biāo);(xk , yk) 在映射到熱圖中為,n 為下采樣值,在本文中為 4; 表示向下取整。特別地,預(yù)測(cè)一組由所有類別的左上角共享的偏移量,以及另一組由右下角共享的偏量,在訓(xùn)練時(shí)采用 Smooth L1 Loss。
在進(jìn)行關(guān)鍵點(diǎn)配對(duì)時(shí),CornerNet 認(rèn)為屬于同一類別的關(guān)鍵角點(diǎn)間應(yīng)盡可能靠近,屬于不同類別的關(guān)鍵角點(diǎn)間應(yīng)盡可能遠(yuǎn)離。但在實(shí)驗(yàn)的過程中,配對(duì)關(guān)鍵點(diǎn)時(shí)可能會(huì)出現(xiàn)錯(cuò)誤, 同時(shí)為了充分利用物體的內(nèi)部信息,本文將這一機(jī)制舍棄,留給二階段中的多元分類器來(lái)完成關(guān)鍵點(diǎn)的配對(duì)問題。
2.1.2 中心度——中心區(qū)域的定義
為了有效剔除大量誤檢候選區(qū)域,本文通過判斷中心關(guān)鍵點(diǎn)是否落在目標(biāo)框的中心區(qū)域的方法來(lái)解決此問題。由于每個(gè)邊界框的大小不同,所以中心區(qū)域不能設(shè)置為一個(gè)固定的數(shù)值。本文提出尺度可調(diào)節(jié)的中心區(qū)域定義法如公式 (4) 所示,引入新的定量指標(biāo)中心度 (Centrality) 概念。
(4)
其中,l 為計(jì)算中心點(diǎn)到預(yù)測(cè)框左邊的距離;r 為中心點(diǎn)到右側(cè)的距離;t 為中心點(diǎn)到上邊框的距離;b 為中心點(diǎn)到下邊框的距離,具體如圖 3 所示。
2.1.3 中心池化
圖 3 中心度計(jì)算
中心池化操作參考 CornerNet 的兩個(gè)角點(diǎn)池化模塊—— 左上角點(diǎn)池化和右下角點(diǎn)池化,分別預(yù)測(cè)左上角關(guān)鍵點(diǎn)和右下角關(guān)鍵點(diǎn)。每個(gè)角點(diǎn)模塊有 2 個(gè)輸入特征圖,相應(yīng)圖的寬、高分別用 W 和 H 表示。假設(shè)要對(duì)特征圖上 (i, j) 點(diǎn)做左上角的角點(diǎn)池化,即計(jì)算(i, j) 到(i, H) 的最大值( 最大池化),同時(shí)計(jì)算(i,j) 到(W, j) 的最大值( 最大池化),隨后將這兩個(gè)最大值相加得到 (i, j) 點(diǎn)的值。右下角的角點(diǎn)池化操作類似,只不過計(jì)算最大值變成從 (0, j) 到 (i, j) 和從 (i, 0) 到 (i, j)。
物體的幾何中心不一定具有很明顯的視覺特征,如人類頭部包含強(qiáng)烈的視覺特征,但中心關(guān)鍵點(diǎn)往往在人體的中間。為了解決這個(gè)問題,本文采用中心池化來(lái)捕捉更豐富和可識(shí)別的視覺特征。圖 4 為中心池化的原理:特征提取網(wǎng)絡(luò)輸出一幅特征圖 ( 寬、高分別用 W 和 H 表示 ),中心池化可通過不同方向上的角點(diǎn)池化的組合實(shí)現(xiàn)。其中,水平方向上取最大值的操作可通過左邊池化 (Left Pooling) 和右邊池化 (Right Pooling) 串聯(lián)實(shí)現(xiàn)。同理,垂直方向上取最大值的操作可通過上部池化 (Top Pooling) 和下部池化 (Bottom Pooling) 串聯(lián)實(shí)現(xiàn)。
圖 4 中心池化結(jié)構(gòu)示意圖
注:AP50 和 AP75 為在單個(gè) IoU 閾值 0.50 和 0.75 時(shí)的精度;APs、APm、APl 分別為小目標(biāo)、中目標(biāo)和大目標(biāo)的檢測(cè)精度。下同表 2、表 4
表 1 本文方法和最先進(jìn)的檢測(cè)框架在 COCO test-2017 上的精度對(duì)比
為了判斷特征圖中的某個(gè)像素是否為中心關(guān)鍵點(diǎn),需要通過中心池化找到其在水平方向和垂直方向的最大值,且將二者相加,這樣有助于更好地檢測(cè)中心關(guān)鍵點(diǎn)。具體操作為特征圖的兩個(gè)分支分別經(jīng)過一個(gè) 3×3 卷積層、BN(Batch Normalization) 層以及一個(gè) ReLU 激活函數(shù),做水平方向和垂直方向的角點(diǎn)池化,最后再相加。假設(shè)對(duì)圖上 (i, j) 點(diǎn)在水平方向做右邊池化,即計(jì)算(i, j) 到(W, j) 的最大值( 最大池化); 同理,計(jì)算左邊池化,再將二者串聯(lián)相加獲得 (i, j) 點(diǎn)水平方向的值。同理,找到垂直方向,最后將水平與垂直方向的值進(jìn)行相加獲得 (i, j) 點(diǎn)的值。
2.2 分類
采用關(guān)鍵點(diǎn)檢測(cè)的方式提取候選區(qū)域,雖然能夠解決需人為設(shè)定錨框大小以及長(zhǎng)寬比等超參數(shù)的問題,大大提高檢測(cè)的靈活度,但也因此帶來(lái)了兩個(gè)問題:大量的誤檢候選區(qū)域以及過濾掉這些誤檢區(qū)域而帶來(lái)的高計(jì)算成本?;诖耍疚牟扇〉慕鉀Q方案主要包括兩個(gè)步驟:
(1) 先判斷角點(diǎn)與中心點(diǎn)是否屬于同一類別,再通過計(jì)算中心點(diǎn)的中心度是否大于 0.7 來(lái)過濾掉大量錯(cuò)誤的候選區(qū)域。
(2) 將第一步篩選后存留的候選區(qū)域送到之后的多元分類器,對(duì)仍存在多個(gè)類別的目標(biāo)分?jǐn)?shù)進(jìn)行排序。其中,采用RoIAlign 提取每個(gè)候選區(qū)域上的特征,并通過 256×7×7 卷積層,得到一個(gè)表示類別的向量,為每一個(gè)存活的候選區(qū)域建立單獨(dú)的分類器。損失函數(shù) Lclass 為 Focal Loss:
(5)
其中,M 和 N 分別為保留的候選區(qū)域數(shù)量和其中的正樣本數(shù)量;C 為數(shù)據(jù)集中與之交叉的類別數(shù);IoUnc 為第 n 個(gè)候選區(qū)域與第 c 個(gè)類別中所有真實(shí)框之間的最大 IoU 值;τ 為IoU 的閾值 ( 設(shè)為 0.7); 為第 n 個(gè)目標(biāo)中第 c 個(gè)類別的分類分?jǐn)?shù);? 為平滑損失函數(shù)的超參數(shù) ( 設(shè)為 2)。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與評(píng)估指標(biāo)
MS-COCO 是目前最流行的目標(biāo)檢測(cè)基準(zhǔn)數(shù)據(jù)集之一,總共包含 12 萬(wàn)張圖片,超過 150 萬(wàn)個(gè)邊界框,覆蓋 80 個(gè)對(duì)象類別,是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集。本文使用trainval35k 來(lái)訓(xùn)練基于關(guān)鍵點(diǎn)檢測(cè)二階段目標(biāo)檢測(cè)網(wǎng)絡(luò)模型, 并在 MS-COCO 數(shù)據(jù)集上進(jìn)行評(píng)估。其中,trainval35k 是由80k 張訓(xùn)練圖片和 35k 張驗(yàn)證圖像的子集組成的聯(lián)合集?! ?/p>
本文使用 MS-COCO 中定義的平均精度 (Average Precision,AP) 作為度量來(lái)表征網(wǎng)絡(luò)模型的性能以及其他競(jìng)爭(zhēng)對(duì)手的性能。單個(gè) IoU 閾值從 0.5 到 0.95 每隔 0.05 記錄一次精度 AP,最后取平均值 ( 即 0.5:0.05:0.95) 。實(shí)驗(yàn)中也記錄了一些其他重要指標(biāo),如 AP50 和 AP75 為在單個(gè) IoU 閾值 0.50 和 0.75 下計(jì)算精度,APs、APm 和 APl 為在不同的目標(biāo)尺度下計(jì)算精度 ( 小尺寸物體面積小于 32×32,中尺寸物體面積大于 32×32 小于 96×96,大尺寸物體面積大于 96×96)。所有的度量都是在每個(gè)測(cè)試圖像上允許最多保留100 個(gè)候選區(qū)域計(jì)算的。
3.2 網(wǎng)格的訓(xùn)練和測(cè)試
本文以 CornerNet 作為基線,部分參考了CornerNet、FCOS 的代碼,特征提取網(wǎng)絡(luò)仍然延用 CornerNet 中采用的52/104 層的 Hourglass 網(wǎng)絡(luò),并借助 Pytorch 實(shí)現(xiàn)算法。
網(wǎng)絡(luò)從零開始訓(xùn)練,輸入圖像的分辨率為 511×511,輸出熱圖的分辨率為 128×128。利用 Adam 來(lái)優(yōu)化訓(xùn)練損失, 整個(gè)網(wǎng)絡(luò)的損失函數(shù) L 為:
(6)
其中,和采用的是 Focal Loss,分別用于訓(xùn)練網(wǎng)絡(luò)檢測(cè)角點(diǎn)和中心關(guān)鍵點(diǎn);和采用 Smooth L1 Loss 分別訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)角點(diǎn)和中心關(guān)鍵點(diǎn)的偏移量。在8 張 NVIDIA 2080-Ti 上進(jìn)行模型訓(xùn)練,batch size 大小設(shè)為 48( 每張卡分配 6 個(gè)樣本 ),前 250k 次迭代學(xué)習(xí)率設(shè)為2.5×10- 4,接下來(lái)的 50k 次迭代減小學(xué)習(xí)率到 2.5×10 - 5。訓(xùn)練 Hourglass-104、Hourglass-52 的時(shí)間分別是 9 d 和 5 d。
4 結(jié)果與討論
本文在通用檢測(cè)數(shù)據(jù)集 COCO test-2017 上對(duì)近年來(lái)比較常見的基于錨框與基于無(wú)錨框的檢測(cè)框架進(jìn)行精度測(cè)試,結(jié)果如表 1 所示。從表 1 可知,本文基于無(wú)錨框關(guān)鍵點(diǎn)檢測(cè)的二階段方法比基于錨框的二階段方法 YOLOv4 精度提升 3.2%;比基于無(wú)錨框的一階段方法如 FCOS、CenterNet 精度分別提升 5.2% 和 1.8%,比 CornerNet 精度提升 6.2%。其中,在檢測(cè)尺寸以及長(zhǎng)寬比特殊的物體時(shí),檢測(cè)精度提升更明顯。這表明,基于無(wú)錨框方法進(jìn)行提取候選區(qū)域更具優(yōu)勢(shì)。在單尺度測(cè)試時(shí),將原始分辨率的圖像和水平翻轉(zhuǎn)的圖像輸入網(wǎng)絡(luò)中,而在多尺度測(cè)試時(shí),將原始圖像的分辨率分別設(shè)置為 0.6、1、1.2、1.5 和 1.8 倍。此外,在單尺度評(píng)價(jià)和多尺度評(píng)價(jià)中都增加了翻轉(zhuǎn)變量。在多尺度評(píng)價(jià)時(shí),將所有尺度的預(yù)測(cè)結(jié)果 ( 包括翻轉(zhuǎn)變量 ) 融合到最終結(jié)果中,然后使用soft-NMS 來(lái)抑制冗余的限定框,并保留 100 個(gè)得分最高的限定框作為最終評(píng)價(jià),結(jié)果如表 2 所示。
表 2 多尺度測(cè)試
將 3 種不同檢測(cè)框架與本研究檢測(cè)方法在 COCO 數(shù)據(jù)集上進(jìn)行召回率評(píng)估,即記錄不同長(zhǎng)寬比和不同大小目標(biāo)的平均召回率 (Average Recall,AR),結(jié)果如表 3 所示。
注:X 為 ResNeXt[29];AR1+、AR2+、AR3+、AR4+ 分別表示邊界框面積在(962, 2002]、(2002, 3002]、(3002, 4002]、(4002, ∞ ) 時(shí)的召回率; AR5∶ 1、AR6∶ 1、AR7∶ 1、AR8∶1 分別表示物體長(zhǎng)寬比為 5 ∶ 1、6 ∶ 1、7 ∶ 1、8 ∶ 1 時(shí)的召回率
表 3 基于錨框和無(wú)錨框檢測(cè)方法的平均召回率 (AR) 比較
通常來(lái)說,在物體非常大時(shí),如尺寸大于 (400×400, ∞ ), 更容易被檢測(cè)到。與其他基于無(wú)錨框的方法相比,基于錨框的方法 Faster R-CNN 并沒有達(dá)到期望的較高召回率。但當(dāng)物體長(zhǎng)寬比比較特殊 ( 如 5 ∶ 1 和 8 ∶ 1) 時(shí),基于無(wú)錨框的檢測(cè)方法比基于錨框的方法表現(xiàn)更加優(yōu)異。這是因?yàn)榛跓o(wú)錨框的檢測(cè)方法擺脫了人為設(shè)置錨框長(zhǎng)寬比的束縛。本文方法繼承了FCOS 和 CornerNet 的優(yōu)點(diǎn),使目標(biāo)定位更靈活,特別是長(zhǎng)寬比例特殊的物體。
本文在 CornerNet 算法基礎(chǔ)上加上中心關(guān)鍵點(diǎn)檢測(cè)分支與原始算法進(jìn)行對(duì)比來(lái)進(jìn)行消融實(shí)驗(yàn),其中特征提取網(wǎng)絡(luò)采用Hourglass-52,結(jié)果如表 4 所示。分析數(shù)據(jù)可以看到,當(dāng)引入中心關(guān)鍵點(diǎn)檢測(cè)分支后精度提升 3%,小目標(biāo)檢測(cè)精度提升5.8%,大目標(biāo)檢測(cè)精度提升 3.6%。表明引入中心關(guān)鍵點(diǎn)檢測(cè)分支后,小目標(biāo)誤檢候選區(qū)域去除得更多。這是因?yàn)閺母怕噬现v,小目標(biāo)由于面積小更容易確定其中心點(diǎn),因此那些誤檢候選區(qū)域不在中心點(diǎn)附近的概率更大。
表 4 添加中心關(guān)鍵點(diǎn)分支的消融實(shí)驗(yàn)
圖 5 為基于錨框方法 Faster R-CNN 與基于無(wú)錨框關(guān)鍵點(diǎn)檢測(cè)的方法進(jìn)行檢測(cè)任務(wù)的可視化對(duì)比結(jié)果??梢钥吹剑疚难芯糠椒o(wú)需人為設(shè)置錨框大小及長(zhǎng)寬比,對(duì)于檢測(cè)小目標(biāo)以及形狀特殊的物體具有更好的檢測(cè)效果。
圖 5 基于錨框方法 Faster R-CNN 與基于無(wú)錨框關(guān)鍵點(diǎn)檢測(cè)的方法進(jìn)行檢測(cè)任務(wù)的可視化對(duì)比結(jié)果
5 結(jié)論
本文提出了基于無(wú)錨框二階段目標(biāo)檢測(cè)框架,即分別提取角點(diǎn)關(guān)鍵點(diǎn)以及物體中心關(guān)鍵點(diǎn),并將它們組合成候選區(qū)域。通過判斷物體中心點(diǎn)是否落在中心區(qū)域來(lái)過濾掉大量誤檢候選區(qū)域,同時(shí)舍棄了 CornerNet 中采取的角點(diǎn)關(guān)鍵點(diǎn)結(jié)合的方式,采用二階段的方式,將保留下來(lái)的候選區(qū)域送入多元分類器進(jìn)行分類與回歸。
通過以上兩個(gè)階段,本文網(wǎng)絡(luò)模型檢測(cè)的查全率和準(zhǔn)確率均有顯著提高,其結(jié)果也優(yōu)于大多數(shù)現(xiàn)有目標(biāo)檢測(cè)方法,在召回率與檢測(cè)精度上都取得了良好的表現(xiàn)。最重要的是,基于無(wú)錨框的方法在提取候選區(qū)域時(shí)更加靈活,克服了基于錨框方法需人為設(shè)置錨框超參數(shù)的缺點(diǎn)。
作者:王宏任 1,2 陳世峰 1
1 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院
2 中國(guó)科學(xué)院大學(xué)深圳先進(jìn)技術(shù)學(xué)院轉(zhuǎn)載自《集成技術(shù)》
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊
關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊
關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊
掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)
填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜