時間:2024-02-22 10:37:14來源:3D視覺工坊
。該流程包括實例分割、特征匹配和點集配準。首先,利用RGB圖像進行單視圖三維語義場景分割,將2D數(shù)據(jù)集中的常見對象類封裝為物體實例的點云。然后,根據(jù)RGB圖像中感興趣對象之間的匹配關鍵點提取兩個連續(xù)分割點云的3D對應點。此外,利用核密度估計(KDE)估計的分布對每對3D點進行加權,從而在解決點云之間的剛性變換時給出了更少中心對應點的魯棒性。最終,在7自由度雙臂Baxter機器人上測試了該流程,結果表明機器人可以成功分割對象、在移動時注冊多個視圖并抓取目標對象。
讀者理解:
這篇文章介紹了一種用于移動協(xié)作機器人的RGB-D感知的端到端處理流程。該流程包括實例分割、特征匹配和對齊,旨在幫助機器人在移動過程中理解場景并執(zhí)行操作。文章提出的方法首先對場景中感興趣的對象進行分割,并在機器人移動時匹配連續(xù)的RGB圖像中的特征,然后利用深度圖獲取3D對應關系。通過統(tǒng)計加權這些3D對應關系,使用核密度估計(KDE)進行剛性點云對齊。實驗結果表明,在實際機器人上進行的測試中,機器人能夠成功地理解場景并抓取目標物體,驗證了所提出方法的有效性。文章的主要貢獻在于提出了一種綜合性的處理流程,為移動機器人在復雜環(huán)境中的感知和操作提供了重要參考。
1 引言
本文介紹自我中心視覺在機器和人類視覺中的重要性,特別是在密集環(huán)境中的作用。為了改善自主機器人的操作任務,需要對感興趣物體的空間信息進行三維感知。目前的分割和配準任務通常是分開進行的,但同時部署這兩個過程會導致計算成本高昂。因此,本文旨在實現(xiàn)輕量級的自我中心3D分割、特征匹配和場景重建流程,以提高基于視覺的室內(nèi)移動協(xié)作機器人的性能。已有的工作主要集中在學習圖像之間的匹配特征,但對于室內(nèi)移動協(xié)作機器人,還需要關注感興趣對象的空間占據(jù)信息。為了填補先前工作的空白并改善基于視覺的移動協(xié)作機器人的3D語義場景感知,本文提出了三項貢獻:
(1)一種提取和統(tǒng)計加權3D對應點以進行剛性點云對準的穩(wěn)健方法,
(2)一種用于具有雙目視覺的自我中心機器人的端到端分割、特征匹配和全局配準流程,
(3)使用真實機器人系統(tǒng)進行測試,以驗證提出方法的正確性。
2 自我中心的3d對象分割
本節(jié)提出了一種算法,用于自我中心地在RGB-D幀中分割物體。該算法首先從圖像流中獲取深度圖像D和RGB圖像I,然后分割出I中的感興趣對象以獲得對象的掩碼MI。接著,對D進行孔填充以保證結果質(zhì)量,然后與I相對齊。隨后,處理對齊深度幀Dalign的像素,以校正MI之外的深度像素,并將其轉換為PM中的點。最后,通過刪除深度圖像中可能由孔造成的異常值來清理PM。
3 特征檢測與匹配
本節(jié)介紹了自我中心3D物體分割中特征檢測和匹配的算法。首先,將1D位置嵌入應用到2D域中,以提高特征提取學習過程,并設計了特征提取網(wǎng)絡。然后,利用分割掩碼提供SuperPoint每個對象的掩碼RGB圖像,以確保特征掃描區(qū)域在掩碼區(qū)域內(nèi)。接著,為兩個連續(xù)幀中的每個對應對象創(chuàng)建相應對象的掩碼RGB圖像,并在每對圖像上應用重新訓練后的SuperPoint,以提取和匹配每個對象實例內(nèi)的2D關鍵點。最后,聚合匹配的特征并計算點云之間的3D對應關系。這一方法避免了特征在不相關對象之間的匹配,并且提高了物體實例的準確性和一致性。
4 點云對齊與配準
本節(jié)詳細介紹了點云對齊與配準的過程,主要包括兩個關鍵步驟:3D對應關系的重要性加權和剛性運動的點云對齊。
3D對應關系的重要性加權:
權重初始化:根據(jù)每個點周圍特定半徑內(nèi)的鄰近點數(shù)初始化該點的權重。
密度估計:使用KDE和ISJ算法估計未知分布的密度,以獲得魯棒性。
權重更新:根據(jù)密度函數(shù)更新每個點的權重,以更好地表示其重要性。
剛性運動的點云對齊:
計算平移向量:計算加權質(zhì)心,用于平移點云。
計算旋轉矩陣:通過奇異值分解得到旋轉矩陣,用于旋轉點云。
定義剛性變換矩陣:將平移向量和旋轉矩陣組合成剛性變換矩陣。
點云對齊:應用剛性變換矩陣,將兩個多視點云進行對齊。
5 實驗
SuperPoint with Positional Embedding的性能:在MS COCO 2014數(shù)據(jù)集上,使用2D位置嵌入重新訓練了SuperPoint,并在MagicPoint標記的興趣點上進行了微調(diào)。通過對圖像進行調(diào)整和增強,如隨機亮度和對比度、高斯噪聲、陰影和運動模糊,訓練了具有128維度的位置嵌入的SuperPoint。訓練過程在NVIDIA RTX 4090 GPU上進行了10個時期(300,000次迭代)。實驗結果顯示,SuperPoint在HPatches數(shù)據(jù)集上表現(xiàn)出色,具有較強的魯棒性,尤其在亮度變化和視角變化等常見場景下。
多角度下的點云對齊誤差:通過在距離場景2米的平面表面上移動攝像機,包括0°(初始位置)、±10°、±20°、±30°和±45°等不同角度,計算了兩個對應點集Kt?1和Kt之間的均方根誤差(RMSE)。實驗結果表明,隨著偏移角度的增加,RMSE變大,同時證明了KDE在減小對齊誤差方面的有效性。
在Baxter機器人上的部署實驗:
實驗設置:在Baxter機器人上安裝IntelRealSense D435i RGB-D相機,并設置了一個桌子、一把椅子、一個包和兩個塑料杯的場景。
機器人移動與多視角拍攝:Baxter先站在一個位置拍攝一個視角,然后移動到另一個角度拍攝另一個視角,其運動由Dataspeed移動底座支持,通過ROS消息進行同步。
多視角點云分割與對齊:在捕獲多視角點云后,Baxter首先對場景中的對象進行分割,然后匹配兩個視圖之間的3D對應關系,最后解決了權重3D對應關系的剛性對齊,最終獲得了對場景的理解。
靠近和抓取目標物體:Baxter演示了使用3D語義場景感知進行機器人抓取的可行性,當目標物體在機器人的工作空間內(nèi)時,Baxter可以有效地抓取這些物體。
在傳統(tǒng)硬件上的時間復雜度:使用OpenVINO庫在Intel HD Graphics 4000上部署了YOLOv8n,評估了分段、關鍵點提取和匹配、關鍵點加權以及點云對齊等步驟的時間復雜度和運行時間。
6 結論
本研究提出了一種用于RGB-D感知移動協(xié)作機器人的端到端流程,包括實例分割、特征匹配和對齊。通過在實際機器人上進行的實驗,驗證了該方法的有效性,機器人能夠理解場景并執(zhí)行操作。
中國傳動網(wǎng)版權與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。