時間:2019-01-28 14:04:37來源:北京大學(xué)深圳研究生院 楊余久
摘要: 文本情感分析旨在對蘊(yùn)涵在文本中的觀點(diǎn)和情感進(jìn)行挖掘和分析,進(jìn)而可以在個性化服務(wù)、推薦系統(tǒng)、輿情監(jiān)測和產(chǎn)品調(diào)研等應(yīng)用方面提升性能。對于文本情感分析,從機(jī)器學(xué)習(xí)的角度,一般可以把它轉(zhuǎn)化成分類問題,其中處理的關(guān)鍵在于文本表示、特征提取以及分類器模型建立,而傳統(tǒng)方法中最為核心的是情感特征詞典構(gòu)建。近年來,深度學(xué)習(xí)方法在圖像、語音等諸多領(lǐng)域取得了令人矚目的進(jìn)展,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,該方法的最大優(yōu)勢就是可以從大量的數(shù)據(jù)樣本中自動地學(xué)習(xí)出豐富、有效的特征,從而獲得更好的效果。已有研究表明,在文本表示層面,詞語向量表示方法可以獲取文本的語義、語法以及自身結(jié)構(gòu)信息,為情感分析研究提供堅(jiān)實(shí)基礎(chǔ),并成為當(dāng)前該領(lǐng)域的研究熱點(diǎn)。本文首先介紹了文本情感分析的概念和問題分類,對深度學(xué)習(xí)在文本情感分析中的相關(guān)工作進(jìn)行梳理,詳細(xì)討論了文本情感分析中的文本表示方法以及深度學(xué)習(xí)模型,介紹了當(dāng)前深度學(xué)習(xí)在文本情感分析應(yīng)用中存在的問題,并對未來該領(lǐng)域研究方向和趨勢進(jìn)行了展望。
(接上期)
5、文本情感分析數(shù)據(jù)集和深度學(xué)習(xí)應(yīng)用討論
5.1 典型數(shù)據(jù)集
語料庫在文本情感分析中起著至關(guān)重要作用,在當(dāng)前的主流機(jī)器學(xué)習(xí)方法解決情感分析問題中,語料庫越大對提升性能越有利。在此,我們對當(dāng)前研究中常用的典型數(shù)據(jù)集做個簡介。
1、IMDB movie review 來自于互聯(lián)網(wǎng)電影數(shù)據(jù)庫(IMDB)的新聞組,由Bo Pang[64]整理發(fā)布。用戶的評級包括星級或者具體的數(shù)值,對應(yīng)于三類:正面、負(fù)面或中立。目前影評庫被廣泛應(yīng)用于各種粒度的,如詞語、句子和篇章級情感分析研究中,該數(shù)據(jù)集在研究領(lǐng)域有較多的引用和使用。
2、Stanford Sentiment Treebank該數(shù)據(jù)集合由斯坦福的Richard Socher建設(shè)維護(hù),也是來自于電影評論的情感標(biāo)注數(shù)據(jù)集。
3、Amazon Product Review Data該數(shù)據(jù)集主要是由伊利諾伊大學(xué)芝加哥分校(UIC)的Bing Liu從亞馬遜下載的產(chǎn)品的網(wǎng)絡(luò)評論(包括兩個品牌的數(shù)碼相機(jī),手機(jī),MP3 和DVD 播放器等),其中他們將這些語料按句子為單元詳細(xì)標(biāo)注了評價主體、情感句的極性及強(qiáng)度等信息。
4、公開的評測數(shù)據(jù)集。 基于公開數(shù)據(jù)集,國際文本評測社區(qū)也開展了情感分析的任務(wù)評測競賽,著名評測包括日本主辦的NTCIR,提供了中、日、英三種語言的標(biāo)準(zhǔn)語料庫,從新聞報道中判讀主觀性信息;國內(nèi)有COAE、NLPCC兩個知名評測競賽,其中前者為文本傾向性評測,分成了四個級別:詞語級、句子級、要素級和篇章級,后者主要針對微博社交媒體標(biāo)注進(jìn)行了評測。
5.2 深度學(xué)習(xí)方法特性
為了使得深度學(xué)習(xí)更好應(yīng)用于文本情感分析中,我們需要在先總結(jié)分析以下其優(yōu)點(diǎn)和不足。
現(xiàn)有研究表面,使用深度學(xué)習(xí)方法進(jìn)行文本情感分析相對一般的機(jī)器學(xué)習(xí)方法的主要優(yōu)勢在于可以自動地學(xué)習(xí)到多層次的特征,減少或者全部代替了復(fù)雜、耗時的人工特征提取工作。由于深度網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)和學(xué)習(xí)能力,使用深度學(xué)習(xí)方法往往可以獲得比一般機(jī)器學(xué)習(xí)方法更好的效果。但是另一方面,深度網(wǎng)絡(luò)強(qiáng)大的特征表示能力在某些方面是由含有大量自由參數(shù)的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)帶來的,太多的自由參數(shù)使得網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù)樣本來訓(xùn)練網(wǎng)絡(luò),因此,深度學(xué)習(xí)方法并不是適用于處理所有的問題,對于小規(guī)模數(shù)據(jù)的問題,傳統(tǒng)的機(jī)器學(xué)習(xí)方法也許會表現(xiàn)更好。此外,對于如何確定網(wǎng)絡(luò)結(jié)構(gòu)(如層數(shù)、每層節(jié)點(diǎn)數(shù))至今還沒有完善的理論指導(dǎo),多憑借研究人員的經(jīng)驗(yàn)通過試錯的方式進(jìn)行。
深度學(xué)習(xí)方法的這些特性使得該方法相對一般的機(jī)器學(xué)習(xí)方法不再關(guān)注構(gòu)建怎樣的數(shù)學(xué)模型、提取哪些有效特征,而是聚焦于如何將問題表示成深度網(wǎng)絡(luò)的輸入、如何將問題的解表示成網(wǎng)絡(luò)的輸出、如何確定網(wǎng)絡(luò)結(jié)構(gòu)以及如何訓(xùn)練網(wǎng)絡(luò)參數(shù)這些問題上來。另外,訓(xùn)練深度網(wǎng)絡(luò)的需要大量的數(shù)據(jù),使得深度學(xué)習(xí)方法更是一種數(shù)據(jù)驅(qū)動、計(jì)算密集的方法。
對于文本情感分析問題,前文中提及到的目前出現(xiàn)的很多深度學(xué)習(xí)方法都是將其作為一種文本分類問題,使用深度神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模、提取特征,然后進(jìn)行分類。這些處理方式與普通的文本分類并沒有太大的變化,我們認(rèn)為可以從以下兩個方面進(jìn)行思考。
一方面,深度網(wǎng)絡(luò)本身具備很強(qiáng)的特征表達(dá)和學(xué)習(xí)能力,并且是一個可以自主學(xué)習(xí)的網(wǎng)絡(luò),給網(wǎng)絡(luò)輸入特定的訓(xùn)練數(shù)據(jù)、指定網(wǎng)絡(luò)的輸出目標(biāo),它會自動地調(diào)整網(wǎng)絡(luò)參數(shù)的權(quán)值來使自己可以達(dá)到我們給它指定的目標(biāo)。在不同問題中使用的深度網(wǎng)絡(luò)模型和訓(xùn)練方法可能是一樣的,但是訓(xùn)練完成后,解決不同問題的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)權(quán)值一定是該問題本身特有的,而從輸入到輸出的函數(shù)映射關(guān)系也正是由網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)權(quán)值所確定的。也許正是這種數(shù)據(jù)驅(qū)動、自主學(xué)習(xí)的特性,使深度學(xué)習(xí)方法在很多領(lǐng)域和問題中都可以取得優(yōu)秀的表現(xiàn)。
另一方面,在文本情感分析問題有著自身特有的難點(diǎn)和挑戰(zhàn),比如語言的歧義性、多意性、情感反置等,僅僅按照一般文本分類的處理方式,這些語言特性可能難以被捕捉到,而使情感評判出現(xiàn)偏差。如何針對文本情感分析問題特有的難點(diǎn)設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu)以及目標(biāo)函數(shù),是進(jìn)一步提升深度學(xué)習(xí)進(jìn)行文本情感分析效果的關(guān)鍵。
5.3 幾種深度網(wǎng)絡(luò)的特征與適用性
對于不同的深度網(wǎng)絡(luò)模型,由于網(wǎng)絡(luò)結(jié)構(gòu)的不同,有著各自的特征與適用性,應(yīng)用于文本情感分析問題時有著不同的處理方式,主要體現(xiàn)在文本表示方式(網(wǎng)絡(luò)的輸入)、處理問題的粒度與規(guī)模以及處理問題的類型(網(wǎng)絡(luò)的輸出)等方面,下面進(jìn)行簡要的分析總結(jié)。
對于FNNs網(wǎng)絡(luò),采用的文本初始表示一般是具有很大稀疏性的BOW和VSM模型,因此FNNs更適合處理文本長度較大的分類問題,比如較長的新聞、文檔分類等,而不太適合處理語句級別以及詞組級別的短文本情感。因?yàn)椴徽撐谋镜拈L度如何,文本集的詞典大小相同,這就導(dǎo)致短文本的初始表示過于稀疏。如果使用FNNs處理較短文本情感分析問題,應(yīng)該考慮限制詞典的大小,通過一些規(guī)則對詞典進(jìn)行過濾,盡可能利用已有的情感詞典作為詞典構(gòu)建基礎(chǔ)。此外,采用BOW以及VSM模型進(jìn)行初始表示,使得詞語之間的順序不重要,忽略了文本的結(jié)構(gòu)和上下文信息,使得后續(xù)的網(wǎng)絡(luò)也很難獲取文本的局部結(jié)構(gòu)性和語境信息,這點(diǎn)也使FNNs更適合進(jìn)行長文本分類。但是,F(xiàn)NNs網(wǎng)絡(luò)的訓(xùn)練一般采用無監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督的參數(shù)調(diào)整相結(jié)合的訓(xùn)練方法,可以利用大量的無標(biāo)簽數(shù)據(jù),鑒于數(shù)據(jù)標(biāo)記的成本高昂,這點(diǎn)是FNNs網(wǎng)絡(luò)很大的優(yōu)勢。
Recursive NNs采用詞語向量進(jìn)行文本表示,并且借助句子的詞法關(guān)系逐步的學(xué)習(xí)詞組以及整個語句的情感分布。由于Recursive NNs這種特定的處理方式,使得Recursive NNs很適合對句子級別的文本(如微博、商品短評)進(jìn)行情感分析,并且可以獲取句子中所有短語的情感分布。但不適合處理多語句、多段落的長文本情感分析問題,當(dāng)文本長度過長時,會使網(wǎng)絡(luò)的層次過大,網(wǎng)絡(luò)過于復(fù)雜。此外,對Recursive NNs的訓(xùn)練是一般采用有監(jiān)督或半監(jiān)督的訓(xùn)練框架,需要較多的訓(xùn)練數(shù)據(jù),特別是幾乎每個詞法短語都需要給予標(biāo)注,使得大量訓(xùn)練數(shù)據(jù)的獲取很困難,借助現(xiàn)有的情感詞典進(jìn)行短語輔助標(biāo)注以及采用半監(jiān)督學(xué)習(xí)框架下的方法可以被優(yōu)先考慮。
CNNs通常利用卷積操作將詞語向量集成,從而學(xué)習(xí)句子的向量表示作為特征,這種方法也使得CNNs較適合處理語句級別的短文本情感分析問題。使用卷積操作使CNNs具有很多優(yōu)勢:通過分享權(quán)值減少了網(wǎng)絡(luò)參數(shù)個數(shù);可以利用多個通道提取更多視角的特征;可以利用多個卷積層逐層地提取更加接近語義信息的特征。此外,這種方式可以處理任意長度的句子,使用卷積操作可以方便地由詞語向量得到句子向量,并且最后得到句子特征的維度可以作為超參數(shù)由人工自己指定。而CNNs的主要缺陷在于處理長文本問題時的復(fù)雜度很高,并且對CNNs的訓(xùn)練也需要較多的有標(biāo)注數(shù)據(jù)。
使用Recurrent NNs處理文本情感分析問題時,一般也是使用詞語向量進(jìn)行文本表示,含有記憶單元的特征使它很適合處理類似于文本這種帶有序列特征的數(shù)據(jù)。Recurrent NNs的反饋網(wǎng)絡(luò)也可以看作是可以自動確定網(wǎng)絡(luò)層數(shù)的有力工具。目前這種方法雖然被嘗試的不多,但是我們認(rèn)為在以后的發(fā)展中,Recurrent NNs會成為解決文本情感分析等自然語言處理問題的重要工具。
6 、總結(jié)和展望
6.1 未來潛在研究方向
使用深度學(xué)習(xí)方法進(jìn)行文本情感分析現(xiàn)在已經(jīng)取得了不錯的效果,但是相對于圖像和語音處理領(lǐng)域,深度網(wǎng)絡(luò)和深度學(xué)習(xí)方法在文本相關(guān)問題的處理上還沒有取得相應(yīng)的突破性成果,在今后的一段時間內(nèi),深度學(xué)習(xí)方法在文本情感分析等文本相關(guān)問題上研究與應(yīng)用依然會是熱點(diǎn)。
1、關(guān)于網(wǎng)絡(luò)模型。由4.3中分析,CNNs以及Recurrent NNs更適合進(jìn)行文本情感分析問題的處理。對于Recursive NNs,需要依賴較復(fù)雜的詞法分析樹,并且數(shù)據(jù)的標(biāo)注量較大,如果可以很好的解決這兩個問題,Recursive NNs也是很好的文本情感分析模型。此外,對于文本情感分析問題,本文多是指的情感分類問題,事實(shí)上文本情感分析還有情感對象、情感詞語識別等重要任務(wù),這些任務(wù)更像是詞語級別的標(biāo)注問題。對于該類問題,可以嘗試使用Recursive NNs進(jìn)行處理,由于該網(wǎng)絡(luò)對每個詞語、詞組都會產(chǎn)生一個標(biāo)簽,如果將這些標(biāo)簽定義為情感對象、情感詞語相關(guān)的標(biāo)簽,可以得到自動標(biāo)注情感對象與情感詞語的深度網(wǎng)絡(luò)模型。而對于FNNs,是最早被人們研究和使用的深度網(wǎng)絡(luò),深度學(xué)習(xí)領(lǐng)域中的很多思想和方法都來自于FNNs的發(fā)展過程,但是FNNs在文本情感分析中的效果相對其他深度網(wǎng)絡(luò)較差,而且目前價值最大的應(yīng)用在于對微博、商品評論等短文本的情感分析上,在未來充分利用各種網(wǎng)絡(luò)優(yōu)點(diǎn)進(jìn)行融合探索最優(yōu)網(wǎng)絡(luò)框架是主要方向之一。
2、關(guān)于文本的表示。使用詞語向量對文本進(jìn)行表示仍然會是重點(diǎn)與熱點(diǎn)。詞語向量的主要優(yōu)勢在于使用低維度、非稀疏的向量來表示詞語以及語句,并且這種表示可以獲取到詞語的語義、語法以及結(jié)構(gòu)性信息。在文本情感分析等文本處理問題中使用他人基于大規(guī)模語料訓(xùn)練好的詞向量進(jìn)行初始化也會成為趨勢:一方面重新訓(xùn)練詞語向量的成本較大,另外使用訓(xùn)練好的詞語向量進(jìn)行初始化一般可以獲取更好的效果。詞語向量的訓(xùn)練方法目前也不是十分完善的,比如目前的主流方式是根據(jù)小窗口之內(nèi)詞語之間的關(guān)系進(jìn)行詞語訓(xùn)練,這樣會使語義相反但用法相似的詞語,在向量空間上成為近鄰,如“這個東西很好”與“這個東西很差”,其中的“好”與“差”在很多方法訓(xùn)練出的詞語向量中,都是近鄰。因此如何獲取更加符合語義、語法、上下文結(jié)構(gòu)的詞語向量,也將繼續(xù)會是研究熱點(diǎn)。
3、關(guān)于深度網(wǎng)絡(luò)的并行化。由于深度網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜、參數(shù)眾多,為了避免過擬合問題的出現(xiàn),對于深度網(wǎng)絡(luò)的訓(xùn)練一般都需要大量的標(biāo)注數(shù)據(jù),因此一個含有豐富情感標(biāo)注的文本數(shù)據(jù)集會具有很大的學(xué)術(shù)價值。而使用大量數(shù)據(jù)對大規(guī)模深度網(wǎng)絡(luò)的訓(xùn)練需要很多的計(jì)算資源,在單機(jī)上的訓(xùn)練時間會很長,往往會花費(fèi)若干小時到若干天才可以得到一次訓(xùn)練結(jié)果,對于超參數(shù)的調(diào)試造成很大的影響,因此如何使用大規(guī)模集群進(jìn)行并行化訓(xùn)練也是一個富有意義和挑戰(zhàn)的工作。
4、關(guān)于先驗(yàn)知識融合。從前面章節(jié)中的方法舉例中我們可以看到,目前很多深度學(xué)習(xí)方法僅僅將文本情感分析作為一種普通的文本情感分類問題進(jìn)行處理,而較少地考慮到情感分析本身的一些特征。我們知道人類情感其實(shí)是相對模糊和不精確的,同樣的詞語和句子在每個人看來表達(dá)的情感強(qiáng)度也是各不相同,并且在語言中還往往存在詞義借用、褒貶轉(zhuǎn)換等復(fù)雜的現(xiàn)象。這些都成為了文本情感分析的困難和挑戰(zhàn),如何利用已有的先驗(yàn)知識來定義這些不太精確的現(xiàn)象并構(gòu)建出可以捕捉到這些語言現(xiàn)象的深度神經(jīng)網(wǎng)絡(luò),是進(jìn)一步提升深度學(xué)習(xí)方法判斷情感精確度應(yīng)該解決的問題。此外,對于人們對文本情感分析問題的研究也有很長的時間了,期間也積累了很多有價值的情感詞典,如何將這些先驗(yàn)的情感詞典融入深度網(wǎng)絡(luò)模型,獲取更好的情感識別效果,也是一個很有意義的研究工作。
除以上幾點(diǎn),應(yīng)用場景擴(kuò)展也是未來主要方向之一。其中包括:
應(yīng)用場景一:多語言情感分析。當(dāng)我們得到在某種語言下的情感分析模型時,我們也希望該模型可以很好的處理其他目標(biāo)語言的情感分析問題。但是,目前絕大多數(shù)方法情感分析方法都是語言相關(guān)的,傳統(tǒng)方法會利用語言的語法、結(jié)構(gòu)等規(guī)則信息,一般機(jī)器學(xué)習(xí)方法也會利用相關(guān)語言的情感詞典,而深度學(xué)習(xí)中的文本表示一般是從語言相關(guān)的詞語級別進(jìn)行。為了處理多語言情感分析問題,現(xiàn)在一般使用機(jī)器翻譯作為中間步驟,但是這樣無疑很難取得較好的效果。在2.3節(jié)中我們介紹了從字符級別進(jìn)行文本表示的方法,這種表示方法對語言不敏感,如果基于這種文本表示方法進(jìn)行深度網(wǎng)絡(luò)構(gòu)建,來處理多語言文本情感分析問題,也許是一個很好的嘗試。
應(yīng)用場景二:結(jié)合表情符號和音視頻的擴(kuò)展式情感分析。為了量化我們的情緒和感情反應(yīng),使用面部表情分析技術(shù)從圖像和視頻中(或從語音)提取我們的情感狀態(tài)。結(jié)合文本信息,給出用戶主體的多維度的擴(kuò)展式情感分析必將吸引更多研究人員投身其中,甚至我們可以利用社交關(guān)系來改進(jìn)文本情感判斷。相關(guān)技術(shù)的進(jìn)步能極大促進(jìn)機(jī)器人擬人化發(fā)展,給機(jī)器人的應(yīng)用拓展了更為廣闊空間。
6.2 熱點(diǎn)下的一點(diǎn)反思
當(dāng)前,作為一個文本情感分析研究人員,你無法忽視深度學(xué)習(xí)給該領(lǐng)域帶來的變革和推動。無論是直接地還是間接地,我們需要思考深度學(xué)習(xí)工具推動了情感分析性能改善的機(jī)理,并擁抱大數(shù)據(jù)帶來并行化計(jì)算轉(zhuǎn)變的變革。同時需要更辯證看來深度學(xué)習(xí)帶給這個領(lǐng)域的沖擊:從文本情感分析本身而言,文本的語言結(jié)構(gòu)科學(xué)表達(dá)和人類認(rèn)知理解過程是核心。我們有理由相信:深度學(xué)習(xí)中網(wǎng)絡(luò)結(jié)構(gòu)的豐富性能支持情感分析性能的進(jìn)一步提升,但也不可忽視語言問題本身和認(rèn)知科學(xué)研究,只有對語言于更好的理解和認(rèn)知過程更深刻認(rèn)識,才能更為科學(xué)的設(shè)計(jì)合理分布式表示和深度結(jié)構(gòu)進(jìn)行文本分析建模,把文本情感分析推到前所未有的高度。
7、附錄
7.1 淺層CNN網(wǎng)絡(luò)的訓(xùn)練
這里我們以正文圖9-上所示淺層C-CNN網(wǎng)絡(luò)的訓(xùn)練為例,說明如何使用BP算法進(jìn)行深度網(wǎng)絡(luò)參數(shù)的訓(xùn)練。該網(wǎng)絡(luò)僅含有一個卷積——Pooling層,Pooling采用Max方式并使用Rectier非線性映射函數(shù),最后是Softmax分類器,不加全連接隱含層。首先重新梳理一些正向計(jì)算的過程,文本原始表示不再敘述,這里以一個樣本的處理為例,也就是已經(jīng)得到了文本的矩陣表示S∈RI*d,I是文本詞語數(shù)目,d是詞語向量維度。
記ki∈Rn*d為第i個卷積核,ci∈RI-n+1為第i個卷積核與句子卷積的結(jié)果,imax∈Rm記錄Max-Pooling的最大值下標(biāo),r∈Rm為Pooling后的結(jié)果,W∈Rm*o為非線性映射的結(jié)果,也是Softmax分類器的輸入,b∈Ro為權(quán)值,b∈Ro為偏值,y∈Rm*o為輸出。其中,n為卷積核大小,是超參數(shù),i∈{1,2,...,m},為卷積核個數(shù),o是超參數(shù),是分類類別個數(shù),由問題本身確定。
至此,前向計(jì)算過程已經(jīng)完成,對于整個C-CNN模型,需要學(xué)習(xí)的參數(shù)記為θ,ν是所有的詞語向量,k表示所有的卷積核。對于詞語向量,我們是先通過word2vec方法預(yù)先訓(xùn)練好的,如果在CNN模型訓(xùn)練過程中保持詞語向量一直不變,則ν不作為網(wǎng)絡(luò)參數(shù),這種做法我們記為靜態(tài)詞語向量方法,記為static-vector。
對于分類問題的求解,我們可以最小化均方誤差,也可以最小化交叉熵,事實(shí)上對于softmax分類器,兩種目標(biāo)函數(shù)是等價的。這里我們給出交叉熵形式的損失函數(shù):
其中,N為全部訓(xùn)練樣本個數(shù),I{.}為指示函數(shù),若內(nèi)部表達(dá)式成立則取值為1,否則取值為0。Ω(θ )表示對于模型參數(shù)的正則項(xiàng),主要是基于能量角度,對參數(shù)的元素值進(jìn)行懲罰:
對模型的訓(xùn)練就是求得使(A-6)式最小化的參數(shù)值θ,一般使用基于隨機(jī)梯度下降(Stochastic Gradient Descent , SGD)的反向傳播(Back-Propagation, BP)算法進(jìn)行求解,首先求出L(θ)關(guān)于各參數(shù)的梯度,然后通過式(A-8)進(jìn)行迭代計(jì)算,直到參數(shù)θ達(dá)到收斂。
其中η表示學(xué)習(xí)率,一般使η為迭代周期t的非增函數(shù),也就是隨著迭代次數(shù)的增加,學(xué)習(xí)率逐漸減小。式(A-6)中的目標(biāo)函數(shù),前面一部分是交叉熵,記為E,后面一部分是正則項(xiàng)。對于各參數(shù)梯度的求解,我們可以分為兩部分進(jìn)行,并且僅考慮一個樣本的情況:
其中,懲罰項(xiàng)關(guān)于各參數(shù)的梯度很容易求,下面主要推導(dǎo)交叉熵關(guān)于各參數(shù)的偏導(dǎo)數(shù)。記:
對pooling層到卷積層的誤差傳播,由于在前向pooling中采用了max-pooling方式,因此誤差只沿著取最大值的卷積塊進(jìn)行傳播。
(A-18)~(A-21)式再加上正則項(xiàng)對各自變量的偏導(dǎo)即為損失函數(shù)關(guān)于各個參數(shù)變量的梯度求取公式,這里不再列出。至此,根據(jù)(A-8)式就可以對網(wǎng)絡(luò)進(jìn)行訓(xùn)練了。有時使用SGD會使目標(biāo)函數(shù)下降的不穩(wěn)定且收斂較慢,往往采用批量(Batch)梯度下降,每次訓(xùn)練一批數(shù)據(jù)樣本,將這些樣本計(jì)算得到的誤差累加起來之后,再用于更新權(quán)值。
7.2 基于MPI的并行訓(xùn)練方法
Message Passing Interface是一種消息傳遞接口標(biāo)準(zhǔn),主要用于基于內(nèi)存計(jì)算的大規(guī)模集群節(jié)點(diǎn)之間的通信。MPI是一個標(biāo)準(zhǔn)接口集合,主要有C和Fortran語言的實(shí)現(xiàn),不同廠商也有各自的實(shí)現(xiàn)。對于MPI的使用只需學(xué)習(xí)接口集合的使用而不用關(guān)心各種實(shí)現(xiàn)的細(xì)節(jié)與不同。本文這里不再詳述MPI相關(guān)知識,后續(xù)訓(xùn)練方法描述也不涉及具體接口函數(shù)調(diào)用,詳細(xì)請參閱MPI官方教程網(wǎng)站。但需要明確的是,在MPI框架下以進(jìn)程為基本計(jì)算單元,每個物理核會啟動一個進(jìn)程,不同進(jìn)程即使在同一個物理節(jié)點(diǎn)上也不能共享內(nèi)存,不同進(jìn)程之間的數(shù)據(jù)只能通過通信接口函數(shù)調(diào)用進(jìn)行共享。通信開銷往往成為基于MPI并行計(jì)算可擴(kuò)展性的瓶頸,因此要盡可能減少通信次數(shù)和通信數(shù)據(jù)量。
我們使用主從結(jié)構(gòu)來實(shí)現(xiàn)大規(guī)模并行計(jì)算,在MPI下很容易構(gòu)建主從結(jié)構(gòu),可以方便地得到每個進(jìn)程的進(jìn)程編號(從0依次開始),因此可以指定0號進(jìn)程為主進(jìn)程,其余進(jìn)程為從進(jìn)程。主進(jìn)程不進(jìn)行計(jì)算,只負(fù)責(zé)全局的控制以及與從進(jìn)程的通信。從進(jìn)程只跟主進(jìn)程進(jìn)行通信,相互之間沒有通信,不知道彼此的存在。我們用表3-5 中的三個子過程描述并行訓(xùn)練的主要步驟。
可以看出,權(quán)值的更新只在主進(jìn)程中進(jìn)行,從進(jìn)程只負(fù)責(zé)將梯度累積變化值計(jì)算出來,然后交給主進(jìn)程。當(dāng)增加一份權(quán)值和梯度累積變化值的存儲作為緩存,使用非阻塞的通信方式,可以使主從進(jìn)程的通信與從進(jìn)程的計(jì)算同時進(jìn)行,達(dá)到很高的計(jì)算效率。這種主從方式的好處是思路簡單清晰,通信量少,運(yùn)算效率高,但是需要注意的是,隨著并行進(jìn)程規(guī)模的提升,對于每個進(jìn)程來說,批數(shù)量的大小會很大,使進(jìn)程相鄰兩次的權(quán)值變化相對較大,可能會引起算法收斂的波動。但減少每個進(jìn)程的批數(shù)量又會使通信密度增加,需要在規(guī)模與算法收斂精度之間進(jìn)行平衡,盡量在不達(dá)到通信瓶頸的情況下進(jìn)行并行擴(kuò)展。
對于所有進(jìn)程處于對等地位的框架,相對會比較麻煩,訓(xùn)練過程中需要大量的同步以及通信,計(jì)算效率會很低。在表6中我們給出了一些上述并行算法的可擴(kuò)展性展示,通信時采用了阻塞通信,相對前文提到的非阻塞通信性能會降低。計(jì)算環(huán)境是在廣州超算中心“天河2號”,一個物理節(jié)點(diǎn)有24個核,我們以節(jié)點(diǎn)數(shù)為變化量,以一次訓(xùn)練迭代所耗時間為觀測目標(biāo),測試規(guī)模是100000個文本評論樣本,卷積核個數(shù)100,子進(jìn)程batch為50。
從表6可以看出,對本算例來講,物理節(jié)點(diǎn)小于5時,擴(kuò)展性能都還很好,繼續(xù)擴(kuò)展時,雖然仍有加速比,但性能下降明顯。主要原因還是由于通信瓶頸,如果節(jié)點(diǎn)內(nèi)的進(jìn)程可以共享內(nèi)存,可擴(kuò)展規(guī)模會隨之大大增加,每個物理節(jié)點(diǎn)24個核內(nèi)部的通信開銷就可以節(jié)省下來。
參考文獻(xiàn)
[1] Aoki S, Uchida O. A method for automatically generating the emotional vectors of emoticons using weblog articles. Proc. 10th WSEAS Int. Conf. on Applied Computer and Applied Computational Science, Stevens Point, Wisconsin, USA. 2011: 132-136.
[2] Bespalov D, Bai B, Qi Y, Shokoufandeh A. Sentiment classification based on supervised latent n-gram analysis. Proceedings of the 20th ACM international conference on Information and knowledge management. ACM, 2011: 375-382.
[3] Bouvrie J. Notes on Convolutional Neural Networks. Neural Nets, 2006.
[4] Barbosa L, Feng J. Robust sentiment detection on twitter from biased and noisy data. Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 36-44.
[5] Boden M. A Guide to Recurrent Neural Networks and Backpropagation. The Dallas Project Sics Technical Report T Sics, 2001.
[6] Bengio Y. Learning deep architectures for AI. Foundations and trends in Machine Learning, 2009, 2(1): 1-127.
[7] Bengio Y, Ducharme R, Vincent P, Jauvin C. A neural probabilistic language model. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[8] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. Advances in neural information processing systems, 2007, 19: 153.
[9] Bengio Y, Senécal J S. Quick training of probabilistic neural nets by importance sampling. AISTATS Conference. 2003.
[10] Bengio Y, Thibodeau-Laufer E, Alain G, Yosinski J. Deep generative stochastic networks trainable by backprop[Online], available: http://arxiv.org/pdf/1306.1091.pdf. arXiv preprint, arXiv:1306.1091, 24 May, 2013.
[1] Cohn D, Atlas L, Ladner R. Improving generalization with active learning. Machine learning, 1994, 15(2): 201-221.
[2] Chung J, Gulcehre C, Cho K, Bengio Y. Gated feedback recurrent neural networks[Online], available: http://arxiv.org/pdf/1502.02367.pdf. arXiv preprint, arXiv:1306.1091, 18 Feb, 2015.
[3] Carreira-Perpinan M A, Hinton G E. On contrastive divergence learning. Proceedings of the tenth international workshop on artificial intelligence and statistics. NP: Society for Artificial Intelligence and Statistics, 2005: 33-40.
[4] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12: 2493-2537.
[5] Cavnar W B, Trenkle J M. N-gram-based text categorization. Ann Arbor MI, 1994, 48113(2): 161-175.
[6] Dugas C, Bengio Y, Bélisle F, Nadeau C, Garcia R. Incorporating second-order functional knowledge for better option pricing. Advances in Neural Information Processing Systems, 2001: 472-478.
[7] Deerwester S C, Dumais S T, Furnas G W, Landauer T K, Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
[8] Dos-Santos C N, Gatti M. Deep convolutional neural networks for sentiment analysis of short texts. Proceedings of the 25th International Conference on Computational Linguistics (COLING), Dublin, Ireland. 2014.
[9] Dasgupta S, Ng V. Mine the easy, classify the hard: a semi-supervised approach to automatic sentiment classification. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 701-709.
[10] Fischer A, Igel C. An Introduction to Restricted Boltzmann Machines. Lecture Notes in Computer Science, 2012, 7441:14-36.
[11] Freund Y, Haussler D. Unsupervised learning of distributions on binary vectors using two layer networks. In Advances in Neural Information Processing Systems 4, SanMateo, CA. Morgan Kaufmann , 1992, p:912–919.
[12] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 2009, 1: 12.
[13] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2013: 6645-6649.
[14] Gao B, Bian J, Liu T Y. Wordrep: A benchmark for research on learning word representations[Online], available: http://arxiv.org/pdf/1407.1640.pdf. arXiv preprint, arXiv:1407.1640, 7 Jul, 2014.
[15] Goller C, Kuchler A. Learning task-dependent distributed representations by backpropagation through structure. IEEE International Conference on Neural Networks, 1996. IEEE, 1996, 1: 347-352.
[16] Gers F A, Schraudolph N N, Schmidhuber J. Learning precise timing with LSTM recurrent networks. The Journal of Machine Learning Research, 2003, 3: 115-143.
[17] Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2014: 580-587.
[18] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. International Conference on Artificial Intelligence and Statistics. 2011: 315-323.
[19] Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification: A deep learning approach. Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011: 513-520.
[20] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks. International conference on artificial intelligence and statistics. 2010: 249-256.
[21] Ghahramani Z, Hinton G E. Variational learning for switching state-space models. Neural
[22] Comput, 12, 2000:831–864.
[23] Hinton G E. A practical guide to training restricted Boltzmann machines. Momentum, 2010, 9(1): 926.
[24] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
[25] Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R. Improving neural networks by preventing co-adaptation of feature detectors[Online], available: http://arxiv.org/pdf/1207.0580v1.pdf. arXiv preprint, arXiv:1207.0580, 3 Jul, 2012.
[26] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507.
[27] Hinton G E, Salakhutdinov R R. A better way to pretrain deep Boltzmann machines. Advances in Neural Information Processing Systems. 2012: 2447-2455.
[28] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural computation, 2002, 14(8): 1771-1800.
[29] Hecht-Nielsen R. Theory of the backpropagation neural network. International Joint Conference on Neural Networks. IEEE, 1989: 593-605.
[30] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation, 1997, 9(8): 1735-1780.
[31] Huynh T, He Y, Rüger S. Learning Higher-Level Features with Convolutional Restricted Boltzmann Machines for Sentiment Analysis. Advances in Information Retrieval. Springer International Publishing, 2015: 447-452.
[32] Harris Z S. Distributional structure. Word, 1954, 10: 146-162.
[33] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 2012: 1097-1105.
[34] Ku L W, Wu T H, Lee L Y, Chen H H. Construction of an evaluation corpus for opinion extraction. Proc. of the Fifth NTCIR Wksp. on Evaluation of Information Access Technologies: Information Retrieval, Question Answering, and Cross-Lingual Information Access, Japan, 2005: 513-520.
[35] Kamps J, Marx M, Mokken R J, De-Rijke M. Using WordNet to Measure Semantic Orientations of Adjectives. LREC. 2004, 4: 1115-1118.
[36] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[Online], available: http://arxiv.org/abs/1404.2188. arXiv preprint, arXiv:1404.2188, 8 Apr, 2014.
[37] Kiros R, Zhu Y, Salakhutdinov R, Zemel R S, Torralba A, Urtasun R et al. Skip-thought vectors[Online], available:http://arxiv.org/pdf/1506.06726.pdf. arXiv preprint, arXiv:1506.06726, 22 Jun, 2015.
[38] Kim Y. Convolutional neural networks for sentence classification[Online], available: http://arxiv.org/pdf/1408.5882.pdf. arXiv preprint, arXiv:1408.5882, 3 Sep, 2014.
[39] Liu B, Zhang L. A survey of opinion mining and sentiment analysis[M]//Mining text data. Springer US, 2012: 415-463.
[40] Li C, Xu B, Wu G, He S, Tian G, Hao H. Recursive Deep Learning for Sentiment Analysis over Social Data. Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014: 180-185.
[41] LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W et al. Handwritten digit recognition with a back-propagation network. Advances in neural information processing systems. 1990.
[42] LeCun Y, Bottou L, Bengio Y, Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[43] LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 1995, 3361(10).
[44] LeCun Y, Jackel L D, Boser B, Denker J S, Graf H P, Guyon I et al. Handwritten digit recognition: Applications of neural network chips and automatic learning. Communications Magazine, IEEE, 1989, 27(11): 41-46.
[45] Landauer T K. An Introduction to Latent Semantic Analysis. Discourse Processes, 1998, 25(2): 259-284.
[46] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Advances in neural information processing systems. 2009: 1081-1088.
[47] Maas A L, Daly R E, Pham P T, Ng A Y, Potts C. Learning word vectors for sentiment analysis. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 142-150.
[48] Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space[Online], available: http://arxiv.org/pdf/1301.3781.pdf. arXiv preprint, arXiv:1301.3781, 7 Sep, 2013.
[49] Mikolov T, Karafiát M, Burget L, Cernocky J, Khudanpur S. Recurrent neural network based language model. INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010. 2010: 1045-1048.
[50] Mikolov T, Kombrink S, Burget L, ?ernocky J H, Khudanpur S. Extensions of recurrent neural network language model. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011: 5528-5531.
[51] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. Proceedings of Neural Information Processing Systems, Lake Tahoe, December 2013. 2013: 3111-3119.
[52] Mikolov T, Yih W, Zweig G. Linguistic Regularities in Continuous Space Word Representations. Proceedings of North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Westin Peachtree Plaza Hotel, 9-14 June 2013, 746-751.
[53] Pak A, Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining. In proceedings of LREC, 2010. 2010, 10: 1320-1326.
[54] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques. Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[55] Pollack J B. Recursive distributed representations. Artificial Intelligence, 1990, 46(1): 77-105.
[56] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation. Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014, 12: 1532-1543.
[57] Pascanu R, Mikolov T, Bengio Y. On the dif?culty of training recurrent neural networks.
[58] In: Proceedings of the International Conference on Machine Learning (ICML). Atlanta, GA, 2013.
[59] Picard R W. Affective computing [Online], available: http://affect.media.mit.edu/pdfs/95.picard.pdf. MIT Technical Report #321, 1995.
[60] Plutchik R. The multifactor-analytic theory of emotion. The Journal of Psychology, 1960, 50(1): 153-171.
[61] Razavian A S, Azizpour H, Sullivan J, Carlsson S. CNN features off-the-shelf: an astounding baseline for recognition. 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2014: 512-519.
[62] Rumelhart D E, Hintont G E, Williams RJ. Learning representations by back-propagating
[63] errors. Nature 323(6088), 1986:533–536
[64] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 1958, 65(6): 386.
[65] Rong W, Peng B, Ouyang Y, Li C, Xiong Z. Semi-supervised Dual Recurrent Neural Network for Sentiment Analysis. 2013 IEEE 11th International Conference on Dependable, Autonomic and Secure Computing (DASC). IEEE, 2013: 438-445.
[66] Stojanovski D, Strezoski G, Madjarov G, Dimitrovski, I. Twitter Sentiment Analysis Using Deep Convolutional Neural Network[M]//Hybrid Artificial Intelligent Systems. Springer International Publishing, 2015: 726-737.
[67] Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11): 613-620.
[68] Sundermeyer M, Schlüter R, Ney H. LSTM Neural Networks for Language Modeling. INTERSPEECH, 2012.
[69] Srivastava N, Salakhutdinov R R, Hinton G E. Modeling documents with deep boltzmann machines[Online], available: http://arxiv.org/ftp/arxiv/papers/1309/1309.6865.pdf. arXiv preprint, arXiv:1309.6865, 2013.
[70] Sharef N M, Shafazand M Y. An improved deep learning-based approach for sentiment mining. Fourth World Congress on Information and Communication Technologies (WICT), 2014. IEEE, 2014: 344-348.
[71] Smolensky P. Information processing in dynamical systems: Foundations of harmony theory. 1986.
[72] Sarikaya R, Hinton G E, Deoras A. Application of deep belief networks for natural language understanding. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 778-784.
[73] Socher R, Huval B, Manning C D, Ng A Y. Semantic compositionality through recursive matrix-vector spaces. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 1201-1211.
[74] Socher R, Lin C C, Manning C, Ng A Y. Parsing natural scenes and natural language with recursive neural networks. Proceedings of the 28th international conference on machine learning (ICML-11). 2011: 129-136.
[75] Socher R, Manning C D, Ng A Y. Learning continuous phrase representations and syntactic parsing with recursive neural networks. Proceedings of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop. 2010: 1-9.
[76] Socher R, Perelygin A, Wu J Y, Chuang J, Manning C D, Ng A Y, et al. Recursive deep models for semantic compositionality over a sentiment Treebank. Proceedings of the conference on empirical methods in natural language processing (EMNLP). 2013, 1631: 1642.
[77] Socher R, Pennington J, Huang E H, Ng A Y, Manning C. D. Semi-supervised recursive autoencoders for predicting sentiment distributions. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161.
[78] Salakhutdinov R R, Hinton G E. Deep boltzmann machines. International Conference on Artificial Intelligence and Statistics. 2009: 448-455.
[79] Sun X, Li C, Xu W, Ren F. Chinese Microblog Sentiment Classification Based on Deep Belief Nets with Extended Multi-Modality Features. Data Mining Workshop (ICDMW), 2014 IEEE International Conference on. IEEE, 2014: 928-935.
[80] Su Z, Xu H, Zhang D, Xu Y. Chinese sentiment classification using a neural network tool—Word2vec. International Conference on Multisensor Fusion and Information Integration for Intelligent Systems, 2014. IEEE, 2014: 1-6.
[81] Tang D, Qin B, Liu T. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 17-21 September 2015. 2015:1422–1432.
[82] Tang D Y, Wei F, Yang N, Zhou M, Liu T, Qin B. Learning sentiment-specific word embedding for twitter sentiment classification. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014, 1: 1555-1565.
[83] Tian G, Zhou Y. Parallel Recursive Deep Model for Sentiment Analysis. Advances in Knowledge Discovery and Data Mining: 19th Pacific-Asia Conference, PAKDD 2015, Ho Chi Minh City, Vietnam, May 19-22, 2015, Proceedings. Springer, 2015, 9078: 15.
[84] Tao J, Tan T. Affective computing: A review[M]//Affective computing and intelligent interaction. Springer Berlin Heidelberg, 2005: 981-995.
[85] Welling M, Rosen-Zvi M, Hinton G E. Exponential family harmoniums with an application to information retrieval. Advances in neural information processing systems. 2004: 1481-1488.
[86] Xue B, Fu C, Shaobin Z. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec. IEEE International Congress on Big Data (BigData Congress), 2014. IEEE, 2014: 358-363.
[87] Xie L X. Sentiment analysis of Chinese micro blog using SVM [Master dissertation], Tsinghua University, Beijing, 2011.
[88] (謝麗星. 基于 SVM 的中文微博情感分析的研究[Master dissertation]. 北京: 清華大學(xué), 2011.)
[89] Xia R, Zong C, Li S. Ensemble of feature sets and classification algorithms for sentiment classification. Information Sciences, 2011, 181(6): 1138-1152.
[90] Yuan B, Liu Y, Li H. Sentiment Classification in Chinese Microblogs: Lexicon-based and Learning-based Approaches. International Proceedings of Economics Development and Research. 2013, vol.68.1.
[91] Yu D, Deng L. Recurrent neural networks and related models[M]//Automatic Speech Recognition. Springer London, 2015: 237-266.
[92] Zhang D W, Xu H, Su Z C, Xu Y F. Chinese comments sentiment classification based on word2vec and SVMperf. Expert Systems with Applications, 2015, 42(4): 1857-1863.
[93] Zhang L, Liu B. Aspect and entity extraction for opinion mining[M]//Data mining and knowledge discovery for big data. Springer Berlin Heidelberg, 2014: 1-40.
[94] Zhang L M, Jia Y, Zhou B, et al. Microblogging sentiment analysis using emotional vector. Second International Conference on Cloud and Green Computing (CGC), 2012. IEEE, 2012: 430-433.
[95] Zhou S, Chen Q, Wang X. Active deep networks for semi-supervised sentiment classification. Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 1515-1523.
[96] Zhou S, Chen Q, Wang X. Fuzzy deep belief networks for semi-supervised sentiment classification. Neurocomputing, 2014, 131: 312-322.
[97] Zhang X, LeCun Y. Text Understanding from Scratch [Online], available: http://arxiv.org/pdf/1502.01710.pdf. arXiv preprint, arXiv: 1502.01710, 8 Sep, 2015.
[98] 胡曉林. 深度學(xué)習(xí)——人工神經(jīng)網(wǎng)絡(luò)再掀研究熱潮[Online], available: http://caai.cn/contents/118/1934.html. 中國人工智能學(xué)會通訊,2013年01期.
標(biāo)簽:
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。