您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 室內(nèi)場景生成算法綜述

室內(nèi)場景生成算法綜述

時間：2022-07-15 11:54:10來源：楊淼陳寶權(quán)

導語：?室內(nèi)場景生成任務是近年來熱門的研究課題。它不僅能為計算機視覺任務提供天然帶有標注的室內(nèi)場景數(shù)據(jù)集，幫助其更好地理解場景，還能應用到諸多現(xiàn)實場景中，如機器人導航等。

室內(nèi)場景生成任務是近年來熱門的研究課題。它不僅能為計算機視覺任務提供天然帶有標注的室內(nèi)場景數(shù)據(jù)集，幫助其更好地理解場景，還能應用到諸多現(xiàn)實場景中，如機器人導航等。室內(nèi)場景布局的多樣性使得場景生成成為一項非常具有挑戰(zhàn)性的任務。該文梳理了近年來在室內(nèi)場景生成算法領(lǐng)域中的研究進展，從場景輸入、場景上下文關(guān)系、場景表達方式、場景生成方式以及家具擺放順序?qū)ι伤惴ㄟM行總結(jié)分類，并以無樣例的基于物體關(guān)系的生成方式、無樣例的基于人類活動的生成方式以及基于樣例和物體關(guān)系的生成方式 3 個分支對室內(nèi)場景生成算法的發(fā)展以及優(yōu)缺點進行分析。此外，該文還總結(jié)了現(xiàn)有算法的不足，并指出了室內(nèi)場景生成算法未來可以嘗試的方向。

　　1 引言

　　近年來，虛擬室內(nèi)場景被廣泛應用于虛擬現(xiàn)實、增強現(xiàn)實、開放式游戲以及機器人領(lǐng)域，然而，室內(nèi)場景的設(shè)計需要耗費大量時間且室內(nèi)場景建模也需要復雜的場景設(shè)計工具。因此，自動化室內(nèi)場景生成任務成為了研究人員關(guān)注的熱點，并得到了快速發(fā)展。

　　室內(nèi)場景生成任務，其目的就是將家具擺放在具有固定大小、結(jié)構(gòu)的三維空間中，并滿足現(xiàn)實室內(nèi)場景中的功能約束及物理約束。其中，家具在三維空間中的屬性信息可由位置、朝向、類別來描述。室內(nèi)場景生成的本質(zhì)是確定擺放的家具類別以及家具排列在三維空間中的方式。與室內(nèi)場景生成任務類似，三維模型生成過程是確定模型部件的排列方式，戶型圖生成則是將房間進行排列，所以戶型圖、三維模型以及室內(nèi)場景生成任務的解決方案可以互相借鑒或組合使用。三維模型由于其固定的功能特性，使得模型部件之間具有相對固定的布局規(guī)律，不具有太多的變化。與三維模型生成相比，室內(nèi)場景生成有以下 3 個難點：

　　(1) 室內(nèi)場景中家具的擺放方式有很大的自由度，同樣的家具可能有多種合理的布局，所以家具之間的關(guān)系相對更加復雜。

　　(2) 三維模型有固定的計算機可以理解的表達方式，如點云、體素、網(wǎng)格等。如何將室內(nèi)場景抽象為計算機可以理解的場景表達方式是一項挑戰(zhàn)。

　　(3) 室內(nèi)場景生成還需要考慮更多特殊的約束，如過道連通性、視野開闊性等。主流的室內(nèi)場景生成算法，使用物體之間的上下文關(guān)系對場景布局進行結(jié)構(gòu)化，少量基于人類活動與物體上下文關(guān)系來表達場景布局的室內(nèi)場景生成算法組成了新的分支。無參考信息的室內(nèi)場景生成任務是非常具有挑戰(zhàn)性的，

場景生成算法框架.png

　　圖 1 場景生成算法框架

　　由此，出現(xiàn)了一系列基于樣例的場景生成算法。本文從上述 3 個難點出發(fā)，將場景生成任務按照無樣例的基于物體關(guān)系的生成方式、無樣例的基于人類活動的生成方式以及基于樣例和物體關(guān)系的生成方式 3 個分支，對場景生成算法進行描述和分析。

　　圖 1 展示了整個場景生成過程中所涉及的算法框架，其中，室內(nèi)場景效果圖來自 3D-FRONT 數(shù)據(jù)集。

　　2 室內(nèi)場景數(shù)據(jù)集

　　基于室內(nèi)場景圖像的圖像檢測、圖像分割、本征分解等計算機視覺相關(guān)的任務已經(jīng)得到了深入研究，這些研究致力于使計算機能夠像人類一樣更好地理解室內(nèi)場景。然而，在視覺領(lǐng)域中對應不同任務的標注數(shù)據(jù)是非常難獲得的，因此，該領(lǐng)域迫切需要天然帶有標注的室內(nèi)場景數(shù)據(jù)集來模擬真實室內(nèi)場景，從而減輕標注數(shù)據(jù)的負擔。

　　最早出現(xiàn)的室內(nèi)場景數(shù)據(jù)集是由 Handa 等提出的SceneNet 數(shù)據(jù)集，該數(shù)據(jù)集僅提供少量帶有三維模型的室內(nèi)場景。Song 等提出了被廣泛使用的大規(guī)模室內(nèi)場景數(shù)據(jù)集 SUNCG，然而，該室內(nèi)場景是由業(yè)余設(shè)計師設(shè)計的，所以與真實場景存在一定的差距。與三維模型組合而來的合成室內(nèi)場景數(shù)據(jù)集不同，Dai 等提出了一個基于真實場景掃描且包含豐富注釋的 RGB-D 掃描圖像數(shù)據(jù)集 ScanNet。Li 等提出的 InteriorNet 數(shù)據(jù)集使用了更多高質(zhì)量的計算機輔助設(shè)計(Computer Aided Design，CAD) 模型，并請專業(yè)設(shè)計師據(jù)此設(shè)計了近 2 000 萬個室內(nèi)場景，同時渲染出了更接近照片效果的室內(nèi)場景圖像，只是其并不公開對應的三維模型，僅提供圖像供研究使用。不同于前述的數(shù)據(jù)集 ( 都不包含對室內(nèi)場景結(jié)構(gòu)的真實標注 )，Mo 等提出的 StructureNet 數(shù)據(jù)集提供了由專業(yè)設(shè)計師設(shè)計的帶有場景結(jié)構(gòu)信息標注的室內(nèi)場景，可以為諸如房間結(jié)構(gòu)預測等任務提供更可靠的標注數(shù)據(jù)。之后， Fu 等提供了 3D-FRONT 室內(nèi)場景數(shù)據(jù)集，該數(shù)據(jù)集是由家裝領(lǐng)域用戶使用的真實室內(nèi)場景數(shù)據(jù)構(gòu)成的，其中有將近一半的房間場景被設(shè)計師認作具有一定設(shè)計理念的高質(zhì)量場景。由Roberts 等提出的 Hypersim 數(shù)據(jù)集在提供三維模型的同時，也提供了帶有實例和語義分割標注的渲染圖像，以及圖像解耦之后的表示圖像，是目前標注信息最完善的室內(nèi)場景數(shù)據(jù)集。

　　3 室內(nèi)場景生成算法的分類

　　室內(nèi)場景生成算法發(fā)展至今已有許多出色的研究成果。本文從已有算法中，抽象出了 5 個分類標準，并從不同角度對現(xiàn)有的算法進行歸納總結(jié)，分析比較現(xiàn)有算法的優(yōu)劣，用于幫助讀者更好地理解室內(nèi)場景生成算法的發(fā)展現(xiàn)狀，具體如表 1 室內(nèi)場景生成算法分類所示。

　　3.1 基于場景輸入的分類

　　根據(jù)場景輸入是否存在參考樣例，可以將室內(nèi)場景生成算法分為無樣例的場景生成算法和基于樣例的場景生成算法。無樣例的場景生成算法往往是從大規(guī)模室內(nèi)場景數(shù)據(jù)集中總結(jié)規(guī)則、抽象能量函數(shù)，或者將布局規(guī)律融入概率統(tǒng)計、深度學習先驗，進而從無到有地生成合理的室內(nèi)場景?；跇永膱鼍吧伤惴ㄓ形谋尽⒉輬D、圖像、三維信息等輸入形式，要求場景的生成結(jié)果與輸入一定程度上匹配，屬于有條件的場景生成任務。

　　在場景生成的實際應用中，往往需要加入用戶的喜好，所以基于樣例的生成算法能夠更好地與人交互，更具有應用前景。但是，在需要大量多樣的虛擬室內(nèi)場景時，無樣例的場景生成算法更具優(yōu)勢。

　　3.2 基于場景上下文關(guān)系的分類

　　根據(jù)場景上下文信息建模的方式不同，可將室內(nèi)場景生成算法分為基于物體與物體之間的關(guān)系和基于人類與物體之間的關(guān)系。大多數(shù)室內(nèi)場景生成算法考慮的都是物體與物體之間的關(guān)系，這種關(guān)系可用來確定家具擺放的空間位置關(guān)系和判斷家具類別的共現(xiàn)關(guān)系，還有少部分采用隱式的方式學習場景布局的上下文信息，如采用神經(jīng)網(wǎng)絡(luò)的注意力機制或利用 CNN、DNN 網(wǎng)絡(luò)參數(shù)自動學習?？紤]到物體的擺放與人類的活動息息相關(guān)，近年來出現(xiàn)了基于人類與物體之間的關(guān)系進行建模的算法，其主要包含人體姿態(tài) - 物體、人體動作 - 物體以及人體部位 - 物體 3 種形式。

　　設(shè)計師在利用計算機軟件進行室內(nèi)場景設(shè)計的過程中，未將人可能在的區(qū)域或動作輸入計算機中，所以缺少包含人類行為的虛擬室內(nèi)場景數(shù)據(jù)集。另外，在不考慮復雜度的情況下，基于物體與物體之間的關(guān)系建模是最易實現(xiàn)的，未來的算法會更加傾向于基于這種關(guān)系的建模方式。然而，現(xiàn)有的算法仍避免不了人為定義如支撐、環(huán)繞等物體與物體之間的關(guān)系，采用注意力機制學習物體與物體之間的關(guān)系能更好地解決該問題。

　　3.3 基于場景表達方式的分類

　　室內(nèi)場景生成算法根據(jù)其表達方式的不同主要分為圖結(jié)構(gòu)、層次結(jié)構(gòu)、圖像結(jié)構(gòu)和矩陣結(jié)構(gòu)。圖結(jié)構(gòu)是由節(jié)點集合和邊集合構(gòu)成的，其優(yōu)點是靈活直觀，可以在任意兩個對象之間添加聯(lián)系，所以大部分算法都采用圖結(jié)構(gòu)的方式進行表達。層

室內(nèi)場景生成算法分類.png

　　表 1 室內(nèi)場景生成算法分類

　　注：場景上下文關(guān)系中，O 代表物體 - 物體關(guān)系，P 代表人 - 物體關(guān)系;場景表達中，G 代表圖結(jié)構(gòu)，H 代表層次結(jié)構(gòu)，I 代表圖像結(jié)構(gòu)，M 代表矩陣結(jié)構(gòu);生成順序中，Seq 代表順序生成，Syn 代表同步生成;場景輸入中，N 代表無參考，T 代表文本輸入，S 代表草圖輸入，I 代表圖像輸入，D 代表三維信息輸入;生成算法中， C 代表傳統(tǒng)算法，L 代表深度學習算法。

　　次結(jié)構(gòu)是由一組具有父子關(guān)系的節(jié)點組成，每一個子節(jié)點都只有一個父節(jié)點。一般將整個場景作為根節(jié)點，家具或家具部件作為葉子節(jié)點，節(jié)點之間存在指向性關(guān)系。按照層次遞進的方式生成室內(nèi)場景比較符合設(shè)計師設(shè)計場景時的設(shè)計思路。考慮到家具一般排列在二維空間中，有研究人員采用俯視圖的方式來表達場景，圖像結(jié)構(gòu)的表達方式可以更加直觀地將家具之間的位置關(guān)系體現(xiàn)到坐標上。基于矩陣的表達方式，首先將每個家具節(jié)點的屬性用向量來表示，然后將所有家具的向量整合為一個可以代表整個場景布局信息的矩陣，矩陣的表達形式最為簡單，不需要定義物體之間的上下文關(guān)系，但是在生成過程中同樣無法體現(xiàn)家具之間的關(guān)系，可解釋性不強。

　　目前，深度學習是主要的場景生成算法，而圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使得圖結(jié)構(gòu)表示的場景也能利用深度學習的優(yōu)勢，自動學習場景布局規(guī)律。同時，圖結(jié)構(gòu)本身能靈活增加、刪除節(jié)點的優(yōu)勢也能使深度學習算法更好地與人交互。所以利用圖卷積神經(jīng)網(wǎng)絡(luò)進行深度學習的圖結(jié)構(gòu)表達場景會更具優(yōu)勢。

　　3.4 基于場景生成方式的分類

　　根據(jù)場景生成方式的不同，可將室內(nèi)場景生成算法主要分為傳統(tǒng)算法和深度學習算法。在深度學習算法出現(xiàn)以前，為了確定布局參數(shù)，傳統(tǒng)方法采用基于規(guī)則、優(yōu)化以及概率統(tǒng)計的傳統(tǒng)方式對場景的布局規(guī)律進行建模。在大規(guī)模室內(nèi)場景數(shù)據(jù)集出現(xiàn)以后，深度學習算法由于其強大的特征學習和提取能力成為室內(nèi)場景布局算法的主要手段。傳統(tǒng)算法需要耗費大量的人工成本對室內(nèi)場景布局規(guī)律進行抽象，并且在生成過程中耗時相對較長。而深度學習算法則通過端到端的生成神經(jīng)網(wǎng)絡(luò)，可以自動學習布局規(guī)律并且快速生成布局，成為目前主流的場景生成算法。

　　3.5 基于家具擺放順序的分類

　　根據(jù)場景中家具擺放的順序，可以將室內(nèi)場景生成算法分為順次迭代和同步生成兩種方式。順次迭代的缺點是后序擺放的物體由于順序性無法對前序擺放的物體產(chǎn)生影響，而前序擺放的物體也無法預測后續(xù)擺放的物體類別，但其優(yōu)點是如果發(fā)現(xiàn)放不下的物體可以舍棄，所以只要算法正確就一定能夠生成合理的場景。同步生成的優(yōu)點是所有家具在擺放時都可以考慮其他所有家具的擺放，缺點是擺放的過程中不能舍棄家具，可能會有不合理的場景出現(xiàn)。

　　4 室內(nèi)場景生成算法

　　室內(nèi)場景布局生成的目標是確定家具的大小、類別及擺放在三維空間中的位置和朝向。目前，主流的場景生成算法是在無樣例約束的條件下，基于物體關(guān)系對場景建模后進行生成。本節(jié)對無樣例的基于物體關(guān)系的場景生成算法，按照傳統(tǒng)算法和深度學習算法兩大類進行梳理，并概述了場景表達方式和場景生成順序。在上述主流算法的基礎(chǔ)上，還衍生出了基于人類活動的無樣例場景建模的場景生成方式，以及基于物體關(guān)系和樣例的場景生成方式。

　　本節(jié)按照無樣例的基于物體關(guān)系的場景生成算法、無樣例的基于人類活動的場景生成算法以及基于樣例和物體關(guān)系的場景生成算法 3 大類對場景生成算法進行具體地梳理和分析，用于幫助讀者更好地了解場景生成算法的發(fā)展趨勢。

　　4.1 無樣例的基于物體關(guān)系的場景生成算法

　　4.1.1 傳統(tǒng)生成方法

　　早期用于研究自動室內(nèi)場景生成的傳統(tǒng)方法主要分為 3 種：基于規(guī)則的場景生成、基于能量優(yōu)化的場景生成以及基于概率統(tǒng)計的場景生成。傳統(tǒng)方法需要充分發(fā)揮科研人員的概括和抽象能力，利用有限的知識和能力抽象出可能的場景布局規(guī)律，并用算法來表示。

　　Xu 等最早提出基于規(guī)則并以順序迭代的方式將家具逐個擺放到室內(nèi)場景中的場景生成算法。在擺放過程中，該算法根據(jù)可放置的平面、平面的支撐能力以及擺放物體間的距離來考慮家具可能擺放的位置，同時將現(xiàn)實場景中家具之間的語義相關(guān)性融入到規(guī)則中使得家具擺放更加合理。此外，該算法還增加了物體的非互穿性、穩(wěn)定性及物體間的摩擦等物理約束，避免出現(xiàn)不和諧的場景擺放。

　　Yu 和 Merrell 等提出用以布局信息為變量的能量函數(shù)來表示規(guī)則，通過優(yōu)化能量函數(shù)的方式生成合理的布局。家具之間的語義相關(guān)性可以概括為層次關(guān)系、空間位置關(guān)系以及成對關(guān)系，其可作為場景上下文信息融入能量方程。也可以考慮功能性擺放規(guī)則以及視覺性擺放規(guī)則，來約束家具的擺放位置。兩種算法從解決問題的不同角度分別提出了不同的優(yōu)化能量函數(shù)方式。由于搜索空間過大，前述算法采用了模擬退火算法，逐步確定家具的擺放后得到一個合理的室內(nèi)場景。后者則考慮到由于布局的多樣性會使得場景有多種合理的布局，對應的能量函數(shù)也具有多峰值，所以該算法采用了馬爾科夫蒙特卡洛采樣的方式，對能量函數(shù)進行優(yōu)化。

　　Fisher 等提出一種基于高斯混合模型和貝葉斯模型的概率模型來學習場景的布局先驗，并以此為基礎(chǔ)生成與用戶給定示例場景相似的新室內(nèi)場景。該模型能夠根據(jù)成對物體在空間位置中的共現(xiàn)概率，預測可擺放的家具類別以及場景空間中最有可能擺放該家具的位置。為了增加新場景布局的多樣性，該論文還提出了一種基于場景上下文信息的聚類算法，并以此提供可互相替換的家具類別。除了考慮成對的對象關(guān)系以外， Kermani 等還采用了涉及兩個以上對象的關(guān)系表示場景的上下文。與前述只考慮局部家具之間的上下文關(guān)系不同，Liu 等利用給定的大規(guī)模室內(nèi)場景數(shù)據(jù)集構(gòu)造了一個具有層次結(jié)構(gòu)的語法概率模型，用其來概括整個室內(nèi)場景的上下文關(guān)系。這種利用數(shù)據(jù)集學到的層次關(guān)系，將其作為一個整體進行擺放更能增加布局的合理性。Henderson 等也是按照主要物體、小物體、天花板物體、墻面物體這樣層次遞進的順序進行家具擺放。

　　4.1.2 深度學習生成方法

　　深度學習是一種基于數(shù)據(jù)進行表征學習的方法。隨著大規(guī)模室內(nèi)場景數(shù)據(jù)集的出現(xiàn)，采用深度學習的方式進行場景生成成為了可能。傳統(tǒng)生成方法需要人工定義具體的規(guī)則、優(yōu)化函數(shù)或密度函數(shù)，而深度學習可以直接利用具有特殊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來隱式地學習表達這些信息，避免人工定義的復雜性。除此之外，采用深度學習的方式從大規(guī)模室內(nèi)場景數(shù)據(jù)集中學習到的場景先驗能夠很好地補充人有限的室內(nèi)場景設(shè)計經(jīng)驗。

　　Wang 和 Ritchie 等提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的場景生成模型，能夠快速靈活地生成場景。雖然室內(nèi)場景存在于三維空間，但重力決定了大多數(shù)對象在二維平面上進行布局，所以該模型將俯視圖表示的場景作為模型輸入，利用不同的卷積神經(jīng)網(wǎng)絡(luò)對家具的類別、位置、朝向以及大小進行預測，并以迭代的方式將家具逐個添加到場景中。將場景圖表示為俯視圖可以實現(xiàn)像素級別的細粒度的推理過程，并且可以利用專門為圖像理解而開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)學習復雜的室內(nèi)場景結(jié)構(gòu)。

　　與圖像平鋪表示的室內(nèi)場景不同，Li 等認為室內(nèi)場景的結(jié)構(gòu)本質(zhì)上是分層的，提出將室內(nèi)場景抽象為包含支撐關(guān)系、共現(xiàn)關(guān)系、環(huán)繞關(guān)系以及墻依靠關(guān)系的分層樹結(jié)構(gòu)。首先，循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)抽象出的分層樹結(jié)構(gòu)，由葉子節(jié)點開始自下而上地對家具屬性以及與其他家具的相對位置關(guān)系進行編碼;然后，從根節(jié)點向下解碼出每個家具節(jié)點的類別、大小、朝向等場景布局信息;最后，以變分自編碼器的方式進行訓練，由隨機采樣的噪聲進行生成。

　　與分層樹結(jié)構(gòu)類似，Zhang 等也采用了變分自編碼器的生成網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)將場景中所有物體特征排列成固定大小矩陣作為室內(nèi)場景的表達方式，將參數(shù)化矩陣輸入稀疏連接的前向神經(jīng)網(wǎng)絡(luò)中學習室內(nèi)場景粗粒度的全局布局信息，同時利用有向距離場將場景映射到二維空間中學習細粒度的局部布局信息。Yang 等也采用了矩陣的表達形式，除了包含單個物體信息的生成網(wǎng)絡(luò)外，該研究還利用生成網(wǎng)絡(luò)對物體的相對屬性進行編碼，最后利用貝葉斯方法結(jié)合單獨對象屬性、相對屬性以及參數(shù)先驗對最終布局進行優(yōu)化。

　　隨著圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和發(fā)展，圖結(jié)構(gòu)表達的室內(nèi)場景可以利用深度學習的方式編碼場景先驗，且圖結(jié)構(gòu)是最直觀表達物體上下文關(guān)系的場景表達方式。消息傳遞網(wǎng)絡(luò)是實現(xiàn)圖卷積網(wǎng)絡(luò)常用的框架，Zhou 等提出了一種利用消息傳遞網(wǎng)絡(luò)對場景圖表示的室內(nèi)場景進行場景增強的方法，并利用從大量的室內(nèi)場景數(shù)據(jù)集中抽象出的支撐、環(huán)繞、靠近、共現(xiàn)關(guān)系及消息傳遞的注意力機制，讓模型更加集中于最相關(guān)的場景上下文對新物體進行預測。Wang 等將場景生成拆分成兩個步驟，首先，在決策模型的框架下，利用圖卷積神經(jīng)網(wǎng)絡(luò)生成場景圖表示場景布局規(guī)劃;然后，利用卷積神經(jīng)網(wǎng)絡(luò)將圖結(jié)構(gòu)中每個節(jié)點代表的家具實例化到具體的空間位置中。Luo 等將圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器結(jié)合起來，提出了一種端到端生成室內(nèi)場景的算法。Dhamo 等在圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器的基礎(chǔ)上，通過在解碼器之前加入增強后的與原始圖像有差異的場景進行訓練，能夠根據(jù)人的偏好改變場景圖之后，進行室內(nèi)場景生成。

　　以往的場景生成方式會對家具之間的關(guān)系進行假設(shè)， Wang 等提出將場景抽象成一個對象屬性的序列，將場景生成任務轉(zhuǎn)化為序列生成任務，采用Transformer 結(jié)構(gòu)生成場景，并通過 Transformer 中的注意力機制隱式學習家具物體之間的關(guān)系。

　　4.2 無樣例的基于人類活動的場景生成算法

　　真實場景中物體之間的關(guān)系復雜多樣，很難從中提取出重要的場景上下文關(guān)系進行建模?，F(xiàn)實中場景的布局往往是按照功能區(qū)劃分，并且和人的活動密切相關(guān)，因此可以通過建模人類活動與物體之間的關(guān)系，對場景布局進行解析。

　　通過人體姿態(tài)可以預測接下來的動作傾向，而動作是人和物體之間產(chǎn)生交互的中介，所以人體姿態(tài)和物體之間存在一定的上下文關(guān)系。Jiang 等通過構(gòu)造概率密度函數(shù)來學習物體的支撐性、可達性以及易用性與人體 6 種標準姿態(tài)的上下文關(guān)系。在場景生成過程中，模型首先根據(jù)已有物體推斷可能的人體姿態(tài)以及位置，然后再以人體姿態(tài)為中心，從概率密度函數(shù)中采樣找到可能的下一個物體的擺放位置。

　　Fisher 等直接利用動作建模人和物體之間的聯(lián)系，并且以此為依據(jù)生成與給定粗糙掃描場景在功能和幾何屬性方面都類似的新場景。該研究從掃描場景中提取帶有功能區(qū)的幾何場景模版后，將虛擬人代理放在對應的功能區(qū)。虛擬人代理根據(jù)場景功能確定凝視、觸摸、背部支撐以及臀部支撐等與物體交互的動作，將物體擺放成與動作相關(guān)的排列。

　　Ma 等研究了一種由動作驅(qū)動的場景生成框架，該框架通過模擬被人類動作改變的物體放置確定場景布局。首先，利用標注圖像對動作模型進行學習，其中，每種類型的動作結(jié)合了一個或多個人體姿勢、一個或多個物體類別和表示人 - 物體以及物體 - 物體之間的空間位置關(guān)系信息;然后，通過采樣動作序列生成場景。與其他算法不同的是，由于一個動作可能涉及多個人體姿勢和物體，該框架能在確定動作后同時觸發(fā)一系列物體的放置，而且場景中所有動作之間具有某種順序關(guān)系，使得整個場景的生成更具一致性。

　　不同于其他研究關(guān)注固定的人體姿態(tài)，Savva 等將人體姿態(tài)用動作屬性控制，允許更高自由度的人體姿態(tài)與場景的交互。該研究建立能反映人體部位與人附近物體聯(lián)系的人體姿態(tài)屬性，從大規(guī)模數(shù)據(jù)集中構(gòu)建概率模型，將人體姿態(tài)估計融入場景生成任務，以生成更合理的場景。Qi 等提出用一種與空間屬性相關(guān)的與或圖來表示室內(nèi)場景，在終端節(jié)點上將與人類活動相關(guān)的上下文關(guān)系編碼進馬爾可夫隨機場，然后以采樣的方式生成新的場景。Fu 等的研究則是在給定一個空場景以及部分家具類別的情況下，通過人類活動與物體之間的聯(lián)系，在給定家具的基礎(chǔ)上進行類別擴充，構(gòu)造完整的場景功能區(qū)。

　　4.3 基于樣例和物體關(guān)系的場景生成算法

　　自動化室內(nèi)場景生成的目的是減輕設(shè)計布局所耗費的時間精力，然而，在某些應用上仍需要一定程度的與人交互，才能生成符合用戶需求的室內(nèi)場景布局。除此之外，完全無參考的室內(nèi)場景生成任務需要學習所有可能的場景布局，較難實現(xiàn)，而基于樣例的方式大大減少了布局多樣性，使場景生成任務更加簡單。本節(jié)將對文本輸入、草圖輸入、圖像輸入以及三維信息輸入幾種不同的基于樣例的場景生成算法進行介紹。

　　4.3.1 文本輸入

　　利用自然語言描述來獲取場景布局是一種較為簡便的方式，自然語言作為人們?nèi)粘１磉_思維的方式在描述場景時不需要任何培訓。Seversky 和 Coyne 等較早地提出了語言驅(qū)動的場景生成方式，該方法通過自然語言詳細描述對象及空間位置的關(guān)系，實現(xiàn)自然語言到場景的映射，這種方式可以生成符合語言表達的室內(nèi)場景，但限制了用戶表達場景的自由度和多樣

　　性，只能生成固定的場景布局。Chang 等提出將自然語言解析成一個包含要擺放物體以及物體之間如何排列的場景模版后，根據(jù)數(shù)據(jù)集中學習到的物體之間的空間位置先驗，將隱含的物體之間的位置關(guān)系擴充進來。Ma 等提出的算法不僅考慮了物體之間的空間位置關(guān)系，還對物體成對出現(xiàn)的概率進行建模，因此，該方法不僅支持隱式位置關(guān)系擴充，也支持隱式的物體類別擴充，這種利用從數(shù)據(jù)集中提取出的隱式、通用的布局規(guī)律對場景增強的方式，可以讓用戶不必像以前的大多數(shù)方法一樣提供明確的布局信息。Chang 等嘗試將描述內(nèi)容與物體關(guān)聯(lián)起來，以便找到更適合文本描述的三維模型，還將規(guī)則轉(zhuǎn)化成基于文本的交互式場景編輯操作，并開發(fā)出給用戶使用的 UI 界面。

　　4.3.2 草圖輸入

　　草圖對于用戶而言也是一種表達場景布局的簡易方式，建模師會根據(jù)室內(nèi)設(shè)計師預先繪制的概念草圖創(chuàng)建對應的三維室內(nèi)場景?，F(xiàn)有的三維場景設(shè)計工具需要建模師多次重復模型尋找以及模型擺放兩個步驟將家具逐個擺放到室內(nèi)場景中。在給定草圖進行場景生成的自動化算法中，Shin 等也采用了類似的流程，首先，從草圖中識別出單個物體;然后，根據(jù)物體的視覺特征去模型庫中找到對應的三維模型;最后，擺放到三維空間中。將三維模型拆分成部件，完成部件級別的模型尋找以及擺放，也能實現(xiàn)模型草圖到三維模型的生成，但是單個物體的檢索和擺放往往會產(chǎn)生歧義，為此，Xu 等提出對數(shù)據(jù)集中提取的具有共現(xiàn)關(guān)系和空間位置關(guān)系的家具組合進行提取，從而實現(xiàn)多個物體的協(xié)同檢索和放置，該方法極大地減少了用戶干預。

　　4.3.3 圖像輸入

　　手機是人們?nèi)粘y帶且具有攝像功能的設(shè)備，得到一張場景圖像只需要按下拍照按鈕，所以通過 RGB 圖像生成場景也是用戶可選的方案，并得到了廣泛的研究和發(fā)展。Huang 等提出利用能夠表征場景功能和幾何約束聯(lián)合分布的整體場景語法來表示三維場景的結(jié)構(gòu)，利用蒙特卡洛方法找到與真實場景最相似的由場景三維信息渲染得到的場景。Nie 等將圖像重建分為場景布局結(jié)構(gòu)估計、物體檢測及網(wǎng)格重建 3 個子任務，本質(zhì)上還是檢測要擺放的物體，根據(jù)相機姿態(tài)投影到三維空間中。該研究通過注意力機制對所有物體的卷積特征進行加權(quán)求和，將上下文信息融入到物體三維空間預估過程中。Xiao 等采用了更復雜的圖卷積神經(jīng)網(wǎng)絡(luò)，通過消息傳遞融入上下文信息。Zhang 等結(jié)合了以上兩種思路，利用 Nie 等提出的注意力機

　　制得到初始位置后，再利用 Xiao 等提出的圖卷積神經(jīng)網(wǎng)絡(luò)進一步優(yōu)化場景布局。

　　4.3.4 三維信息輸入

　　用二維 RGB 圖像進行三維場景生成較易出現(xiàn)偏差，而基于深度信息構(gòu)建的 RGB-D 場景或掃描場景帶來的三維場景信息更加明確，但是 RGB-D 圖像往往充滿噪聲，所以 Chen 等提出將在數(shù)據(jù)庫中學習到的物體上下文關(guān)系用于約束重建，確保重建家具與掃描家具之間的語義相似性。Hampali 等采用了蒙特卡洛方法，搜尋 RGB-D 圖像中可能的家具集合信息，以最小化重建場景與真實場景的差異。Fisher 等利用人 - 物體的上下文關(guān)系生成和具有噪聲的掃描場景相似的新場景。Avetisyan 等則是在檢測出掃描場景中的物體后，利用物體 - 物體的上下文關(guān)系對家具的擺放位置進行優(yōu)化。

　　5 總結(jié)與未來展望

　　本文對場景生成算法做了一個較為全面的分析和描述，分別從基于規(guī)則、概率統(tǒng)計、優(yōu)化函數(shù)的傳統(tǒng)場景生成方式到基于圖卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)的深度學習生成方法，從基于物體 - 物體之間上下文關(guān)系的算法到基于人- 物體的上下文關(guān)系的算法，從無樣例的生成模型到基于樣例的生成模型，從矩陣結(jié)構(gòu)、層次結(jié)構(gòu)、圖像結(jié)構(gòu)到圖結(jié)構(gòu)的場景表達方式，從順序生成到同步生成的生成順序分析了各個場景生成算法的優(yōu)缺點，以及近年來的發(fā)展。

　　目前，室內(nèi)場景生成算法仍然存在問題。主流的深度學習方法雖然能學習到一定的場景先驗知識，但仍然需要預定義一些空間位置關(guān)系和共現(xiàn)關(guān)系來輔助算法進行場景理解，且預定義的關(guān)系所能表達的場景上下文關(guān)系有限。神經(jīng)網(wǎng)絡(luò)中的注意力機制可以很好地解決這個問題，但注意力機制僅能表示物體之間聯(lián)系的緊密程度，不包含任何語義信息。所以將語義關(guān)系預測融入場景生成是未來研究的方向之一。

　　最直觀且目前最有發(fā)展前景的場景表達方式是圖結(jié)構(gòu)和圖像結(jié)構(gòu)的表達方式。圖結(jié)構(gòu)表達方式可以忽略家具本身在三維空間中的位置，在任意節(jié)點之間構(gòu)造聯(lián)系，但該表達方式的節(jié)點之間不具備明確順序。而圖像結(jié)構(gòu)由于其本身排列在二維空間坐標系中，所以圖像表示的場景能自然地捕捉到家具之間的位置關(guān)系。因而將圖結(jié)構(gòu)和圖像結(jié)構(gòu)結(jié)合進行場景預估也是一個值得研究的課題?，F(xiàn)有的算法雖將圖和圖像相結(jié)合但是采用的是兩步走的策略，未來可以嘗試訓練一個端到端的網(wǎng)絡(luò)將兩者結(jié)合起來。

楊淼 1 陳寶權(quán) 2*

　　1 山東大學計算機科學與技術(shù)學院

　　2 北京大學前沿計算研究中心

　　轉(zhuǎn)載自《集成技術(shù)》

標簽：機器視覺

分享到：

上一篇：應用案例 | 倍福半導體行業(yè)案...

下一篇：智能線性機器人助力生產(chǎn)力水...

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關(guān)資訊

技術(shù)熱點