時間:2018-07-11 16:33:18來源:網(wǎng)絡(luò)轉(zhuǎn)載
或許你還記得南大LAMDA教授周志華和學生馮霽在今年早些時候發(fā)表的“深度森林”論文,他們認為基于決策樹集成的方法同樣可以構(gòu)建深度學習模型,并提出深度森林gcForst,對神經(jīng)網(wǎng)絡(luò)以外的深度模型進行了探索?,F(xiàn)在,在深度森林的基礎(chǔ)上,他們又提出了基于決策樹集成方法的自編碼器(auto-encoder)eForest。實驗結(jié)果表明,eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。
自編碼是一項重要的任務(wù),通常由卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度神經(jīng)網(wǎng)絡(luò)(DNN)實現(xiàn)。本文中,我們提出了EncoderForest(簡寫為eForest),這是第一個基于樹集成的自編碼器。我們提出了一種方法,讓森林能夠利用樹的決策路徑所定義的等效類來進行后向重建,并在監(jiān)督和無監(jiān)督環(huán)境中展示了其使用情況。實驗結(jié)果表明,與DNN自編碼器相比,eForest能夠以較快的訓(xùn)練速度獲得更低的重建誤差,同時模型本身具有可重用性和容損性。
如果上面這段話看上去似曾相識,比如關(guān)鍵詞“基于樹的”、“eForest”,還有“相比DNN,基于樹的方法更加……”的表述,你沒有弄錯,南大LAMDA教授周志華和他的學生馮霽又出手了。
今年早些時候,他們兩人的論文《深度森林:探索深度神經(jīng)網(wǎng)絡(luò)以外的方法》,在業(yè)界引發(fā)了不小的反響。在那篇論文中,周志華和馮霽提出了一種基于樹的方法gcForest——“multi-GrainedCascadeforest”,多粒度級聯(lián)森林——通過一種全新的決策樹集成方法,使用級聯(lián)結(jié)構(gòu),讓gcForest做表征學習。實驗中,gcForest使用相同的參數(shù)設(shè)置,在不同的域中都獲得了優(yōu)異的性能,在大型和小型數(shù)據(jù)集上表現(xiàn)都很好。此外,由于是基于樹的結(jié)構(gòu),gcForest相比神經(jīng)網(wǎng)絡(luò)也更容易分析。
在gcForest論文中,作者寫道:“我們認為,要解決復(fù)雜的問題,學習模型也需要往深了去。然而,當前的深度模型全部都是神經(jīng)網(wǎng)絡(luò)。這篇論文展示了如何構(gòu)建深度森林(deepforest),為在許多任務(wù)中使用深度神經(jīng)網(wǎng)絡(luò)以外的方法打開了一扇門?!?/p>
現(xiàn)在,他們在gcForest的基礎(chǔ)上,繼續(xù)探索DNN以外的方法,這次瞄準的是自編碼器。
繼續(xù)探索神經(jīng)網(wǎng)絡(luò)以外的方法,這次瞄準自編碼器
在最新論文《用決策樹做自編碼器》(AutoEncoderbyForest)中,周志華和馮霽提出了EncoderForest,也即“eForest”,讓一個決策樹集成在監(jiān)督和無監(jiān)督的環(huán)境中執(zhí)行前向和后向編碼運算,實驗結(jié)果表明,eForest方法具有以下優(yōu)點:
準確:實驗重建誤差低于基于MLP或CNN的自編碼器
高效:在單個KNL(多核CPU)上的訓(xùn)練eForest的速度,比在Titan-XGPU上訓(xùn)練CNN自編碼器速度更快
容損:訓(xùn)練好的模型在部分受損的情況下仍然運行良好
可復(fù)用:在一個數(shù)據(jù)集上訓(xùn)練好的模型能夠直接應(yīng)用于同領(lǐng)域另外一個數(shù)據(jù)集
下面是小編對最新論文的編譯介紹,要查看完整的論文,請參見文末地址。
首個基于樹集成的自編碼器模型eForest
這一次,我們先從結(jié)論看起,再回過頭看eForest模型的提出和實驗結(jié)果。在結(jié)論部分,作者寫道,
在本文中,我們提出了首個基于樹集成的自編碼器模型EncoderForest(縮寫eForest),我們設(shè)計了一種有效的方法,使森林能夠利用由樹的決策路徑所定義的最大相容規(guī)則(MCR)來重構(gòu)原始模式。實驗證明,eForest在精度和速度方面表現(xiàn)良好,而且具有容損和模型可復(fù)用的能力。尤其是在文本數(shù)據(jù)上,僅使用10%的輸入比特,模型仍然能夠以很高的精度重建原始數(shù)據(jù)。
eForest的另一個優(yōu)點在于,它可以直接用于符號屬性或混合屬性的數(shù)據(jù),不會將符號屬性轉(zhuǎn)換為數(shù)字屬性,在轉(zhuǎn)換過程通常會丟失信息或引入額外偏差的情況下,這一點就顯得尤為重要。
需要注意,監(jiān)督eForest和無監(jiān)督的eForest實際上是由多粒度級聯(lián)森林gcForst構(gòu)建的深度森林在每一級同時使用的兩個成分。因此,這項工作也可能加深對gcForst的理解。構(gòu)建深度eForest模型也是未來值得研究的有趣問題。
方法提出:一種可能是最簡單的森林后向重建策略
自編碼器有兩大基本功能:編碼和解碼。編碼對于森林來說很容易,因為單是葉節(jié)點信息就可以被視為一種編碼方式,而節(jié)點的子集甚至分支路徑都可能為編碼提供更多信息。
編碼過程
首先,我們提出EncoderForest的編碼過程。給定一個含有T顆樹的訓(xùn)練好的樹集成模型,前向編碼過程接收輸入數(shù)據(jù)后,將該數(shù)據(jù)發(fā)送到集成中的樹的每個根節(jié)點,當數(shù)據(jù)遍歷所有樹的葉節(jié)點后,該過程將返回一個T維向量,其中每個元素t是樹t中葉節(jié)點的整數(shù)索引。
Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過程與如何分割樹節(jié)點的特定學習規(guī)則是彼此獨立的。例如,可以在隨機森林的監(jiān)督環(huán)境中學習決策規(guī)則,也可以在無監(jiān)督的環(huán)境(例如完全隨機樹)中學習。
解碼過程
至于解碼過程,則不那么明顯。事實上,森林通常用于從每棵樹根到葉子的前向預(yù)測,如何進行向后重建,也即從葉子獲得的信息中推演原始樣本的過程并不清晰。
在這里,我們提出了一種有效并且簡單(很可能是最簡單的)策略,用于森林的后向重建。首先,每個葉節(jié)點實際上對應(yīng)于來自根的一條路徑,我們可以基于葉節(jié)點確定這個路徑,例如下圖中紅色高亮的路徑。
其次,每條路徑對應(yīng)一個符號規(guī)則,上圖中高亮的路徑可以對應(yīng)以下規(guī)則集,其中RULEi對應(yīng)森林中第i顆樹的路徑,符號“:”表示否定判斷:
然后,我們可以推導(dǎo)出最大相容規(guī)則(MCR)。從上面的規(guī)則集中可以得到這樣的MCR:
這個MCR的每個組成部分覆蓋范圍都不能擴大,否則就會與其他條件沖突。因此,原始樣本不得超出MCR定義的輸入?yún)^(qū)域。Algorithm2對這一規(guī)則給出了更詳細的描述。
獲得了MCR后,就可以對原始樣本進行重建。具體說,給定一個訓(xùn)練好的含有T棵樹的森林,以及一個有中前向編碼的特定數(shù)據(jù),后向解碼將首先通過中的每個元素定位單個葉節(jié)點,然后根據(jù)對應(yīng)的決策路徑獲得相應(yīng)的T個決策規(guī)則。通過計算MCR,我們可以將返回給輸入?yún)^(qū)域中的。Algorithm3給出了具體的算法。
通過前向編碼和后向編碼運算,eForest就能實現(xiàn)自編碼任務(wù)。
此外,eForest模型還可能給出一些關(guān)于決策樹集成模型表征學習能力的理論洞察,有助于設(shè)計新的深度森林模型。
實驗結(jié)果
作者在監(jiān)督和無監(jiān)督條件下評估了eForest的性能。其中,下標500和1000分別表示含有500顆和1000顆樹的森林,上標s和u分別表示監(jiān)督和無監(jiān)督。在這里eForestN將輸入實例重新表示為N維向量。
相比基于DNN的自編碼器,eForest在圖像重建、計算效率、模型可復(fù)用以及容損性實驗中表現(xiàn)都更好,而且無監(jiān)督eForest表現(xiàn)有時候比監(jiān)督eForest更好。此外,eForest還能用于文本類型數(shù)據(jù)。
圖像重建
文本重建
由于基于CNN和MLP的自編碼器無法用于文本類型數(shù)據(jù),這里只比較了eForest的性能。也展示了eForest可以用于文本數(shù)據(jù)。
計算效率
容損性
模型可復(fù)用
論文地址:https://arxiv.org/pdf/1709.09018.pdf
標簽:
中國傳動網(wǎng)版權(quán)與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。