技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 集成神經(jīng)網(wǎng)絡(luò)語(yǔ)音情感識(shí)別模型研究

集成神經(jīng)網(wǎng)絡(luò)語(yǔ)音情感識(shí)別模型研究

時(shí)間:2017-11-20 17:11:15來(lái)源:羅丹青、鄒月嫻、黃東延

導(dǎo)語(yǔ):?語(yǔ)音情感識(shí)別是服務(wù)機(jī)器人的關(guān)鍵技術(shù)之一,具有重要的應(yīng)用價(jià)值。與傳統(tǒng)的語(yǔ)音情感識(shí)別方法相比,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法已經(jīng)展示出優(yōu)越的性能。

背景

    情感識(shí)別有助于為人機(jī)交互提供良好的體驗(yàn),是未來(lái)計(jì)算機(jī)必備的一項(xiàng)重要能力,因而近年來(lái)語(yǔ)音情感識(shí)別已經(jīng)逐漸成為一個(gè)研究熱點(diǎn),并有了大量應(yīng)用。雖然早在20世紀(jì)80年代就出現(xiàn)了語(yǔ)音情感識(shí)別的相關(guān)研究,該課題對(duì)于機(jī)器而言確實(shí)較為棘手。此外,相比語(yǔ)音識(shí)別領(lǐng)域,用于語(yǔ)音情感識(shí)別的公開(kāi)數(shù)據(jù)庫(kù)少之又少。

語(yǔ)音情感識(shí)別系統(tǒng)由兩部分構(gòu)成,即特征提取器和情感識(shí)別分類(lèi)器。

    語(yǔ)音情感識(shí)別任務(wù)中使用的聲學(xué)特征可分為3類(lèi):韻律學(xué)特征、譜特征和音質(zhì)特征。其中常用的韻律學(xué)特征包括時(shí)長(zhǎng)、基頻、能量等;譜特征一般有LPC、OSALPC等線性譜特征和MFCC、LPCC等倒譜特征;音質(zhì)特征一般有共振峰頻率及其帶寬、頻率微擾、振幅微擾和聲門(mén)參數(shù)等。以上聲學(xué)特征由于是從語(yǔ)音幀中提取,表征的是短時(shí)音頻的特性,也統(tǒng)稱(chēng)為低層描述子。然而人們對(duì)情感的感知往往蘊(yùn)藏于某一時(shí)間段內(nèi)情感的波動(dòng)表達(dá),所以為了在更長(zhǎng)的時(shí)間范圍內(nèi)對(duì)情感進(jìn)行描述,通常還計(jì)算句子的全局特征。全局特征用于刻畫(huà)低層描述子在整句話中的動(dòng)態(tài)變化信息,因此由低層描述子的統(tǒng)計(jì)值組成,常見(jiàn)的統(tǒng)計(jì)值有均值、極值、變化范圍、豐度、偏度、矩和線性回歸相關(guān)參數(shù)等。特征設(shè)計(jì)在傳統(tǒng)的語(yǔ)音情感識(shí)別方法中是重要的一環(huán),決定了情感特征的好壞。然而,尋找最優(yōu)的特征子集是一項(xiàng)繁瑣的任務(wù),也依據(jù)不同的數(shù)據(jù)庫(kù)而有所不同。到目前為止,對(duì)于語(yǔ)音情感識(shí)別任務(wù)還沒(méi)有一套公認(rèn)的最優(yōu)特征集,研究人員大多在實(shí)驗(yàn)中經(jīng)驗(yàn)性地選擇所需特征。

    根據(jù)特征來(lái)源和分類(lèi)器訓(xùn)練方法的不同,語(yǔ)音情感識(shí)別系統(tǒng)可以在兩個(gè)層次進(jìn)行情感的判斷:短語(yǔ)音段層次和完整句子層次。對(duì)于短語(yǔ)音段的語(yǔ)音情感識(shí)別,一個(gè)句子被切分為多個(gè)語(yǔ)音段,使用語(yǔ)音段的特征訓(xùn)練分類(lèi)器。低層描述子在從語(yǔ)音幀提取出來(lái)后,被輸入到序列分類(lèi)器以模擬說(shuō)話人的情感分布狀態(tài),這樣的序列分類(lèi)器通常使用高斯混合模型和隱馬爾可夫模型進(jìn)行建模。在訓(xùn)練時(shí)短語(yǔ)音段的情感標(biāo)簽就是所屬句子的情感標(biāo)簽;測(cè)試時(shí),由于一句話有多個(gè)語(yǔ)音段的識(shí)別結(jié)果,對(duì)它們進(jìn)行大多數(shù)投票得到最終的識(shí)別結(jié)果。對(duì)于完整句子層次的語(yǔ)音情感識(shí)別,分類(lèi)器輸入的是從整個(gè)句子提取的特征。首先由低層描述子和統(tǒng)計(jì)函數(shù)計(jì)算句子的全局特征,最后全局特征輸入到一個(gè)判別分類(lèi)器進(jìn)行句子情感的識(shí)別。這樣的判別分類(lèi)器包括幾乎所有的傳統(tǒng)分類(lèi)器,如支持向量機(jī)、決策樹(shù)、K鄰近模型等。

近年來(lái),深度神經(jīng)網(wǎng)絡(luò)因其具有強(qiáng)大的從原始數(shù)據(jù)學(xué)習(xí)層級(jí)特征的能力,也被引入了語(yǔ)音情感識(shí)別領(lǐng)域。Han等人設(shè)計(jì)了DNN用于學(xué)習(xí)短時(shí)語(yǔ)音段情感特征,后端使用極限學(xué)習(xí)機(jī)對(duì)全局特征進(jìn)行句子層次的情感分類(lèi)。Lee等人提出了基于最大似然學(xué)習(xí)準(zhǔn)則的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)隨機(jī)語(yǔ)音段標(biāo)簽序列進(jìn)行建模,極大提升了語(yǔ)音情感識(shí)別的準(zhǔn)確率。Mirsamadi等人針對(duì)語(yǔ)音情感識(shí)別探索了不同的RNN結(jié)構(gòu),并提出了注意力機(jī)制對(duì)不同情感重要程度的語(yǔ)音幀進(jìn)行加權(quán)。Mao等人設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)語(yǔ)音中顯著具有判別性的情感特征。

    在同一個(gè)數(shù)據(jù)庫(kù)上比較以上不同的方法,可以發(fā)現(xiàn)它們的混淆矩陣有很大差異。盡管使用相同的低層描述子,不同分類(lèi)器在每個(gè)情感類(lèi)別上都獲得了不一致的識(shí)別率。該現(xiàn)象說(shuō)明單一的分類(lèi)器無(wú)法在所有情感類(lèi)別上都表現(xiàn)良好,例如可能SVM無(wú)法有效識(shí)別出“高興”而DNN分類(lèi)器卻可以。這樣的差異除了與數(shù)據(jù)不均衡有關(guān),還與分類(lèi)器自身的建模能力直接相關(guān)。

    從該結(jié)論出發(fā),為了提高語(yǔ)音情感識(shí)別的準(zhǔn)確率,本文提出一種使用兩類(lèi)神經(jīng)網(wǎng)絡(luò)作為基分類(lèi)器的集成學(xué)習(xí)方法。正如文獻(xiàn)所說(shuō),集成系統(tǒng)中的基分類(lèi)器應(yīng)該盡可能地具有不同結(jié)構(gòu)來(lái)達(dá)到更好的泛化性能,本文選擇了適于處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)和在圖像分類(lèi)中性能突出的寬度殘差網(wǎng)絡(luò)作為基分類(lèi)器。

基分類(lèi)器介紹

1.長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)

    由于本身獨(dú)特的結(jié)構(gòu),RNN擁有強(qiáng)大的處理序列數(shù)據(jù)的能力。隱含層在前后時(shí)間步間的連接使上一步的隱含層狀態(tài)能夠傳遞給當(dāng)前步的隱含層。如此循環(huán)傳遞下去,序列中第一步的信息就能傳遞到最后一步,序列相關(guān)性得以建模。然而,當(dāng)輸入序列達(dá)到一定長(zhǎng)度,由于梯度消失問(wèn)題RNN的性能會(huì)急劇下降,長(zhǎng)短時(shí)記憶模型就是為了克服該問(wèn)題而設(shè)計(jì)的。

    總體來(lái)說(shuō),一個(gè)LSTM模塊包括四個(gè)元素:輸入門(mén)i、遺忘門(mén)f、輸出門(mén)o和記憶單元c,三個(gè)門(mén)負(fù)責(zé)調(diào)節(jié)記憶單元前后時(shí)間步狀態(tài)之間的關(guān)系。以某個(gè)時(shí)間步t為例,RNN的輸入是xt,三個(gè)門(mén)和記憶單元的狀態(tài)依次是it、ft、ot和ct,該層LSTM的輸出是ht,它們之間的關(guān)系由下式表示:

    (1)                        

    (2)                      

    (3)                     

(4)                     

    (5)                                         

    其中Wx.、Wh.、Wc.分別是輸入層、隱含層輸出、記憶單元與各個(gè)門(mén)的連接權(quán)重;b.代表各個(gè)門(mén)的偏置。

2.寬度殘差網(wǎng)絡(luò)

    眾所周知,同樣是出于梯度消失,CNN層數(shù)越多越難訓(xùn)練。為了訓(xùn)練深層的卷積網(wǎng)絡(luò),殘差網(wǎng)絡(luò)得以提出。實(shí)驗(yàn)證明殘差網(wǎng)絡(luò)可以在比傳統(tǒng)CNN層數(shù)深得多的情況下取得優(yōu)越的圖像識(shí)別性能。受殘差網(wǎng)絡(luò)加深層數(shù)的啟發(fā),文獻(xiàn)中提出了寬度殘差網(wǎng)絡(luò),以更淺層數(shù)、更大寬度的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提升了圖像識(shí)別準(zhǔn)確率。

    殘差網(wǎng)絡(luò)由殘差模塊順序堆疊構(gòu)成,一個(gè)殘差模塊中通常包括兩個(gè)卷積層,每個(gè)卷積層前面分別有一個(gè)批歸一化層和ReLu激活函數(shù)層。對(duì)比普通的殘差網(wǎng)絡(luò),WRN把每層卷積層中的卷積核個(gè)數(shù)擴(kuò)展為原來(lái)的K倍,加寬了卷積層以提高它們的特征學(xué)習(xí)能力。研究表明WRN可以用淺得多的層數(shù)達(dá)到與普通殘差網(wǎng)絡(luò)相同的圖像識(shí)別率。圖1展示了一個(gè)殘差模塊和一個(gè)WRN的結(jié)構(gòu)。圖1中WRN使用了四類(lèi)殘差模塊,它們的卷積核數(shù)目分別為16、、。連續(xù)N個(gè)同類(lèi)殘差模塊堆疊為一個(gè)組,四組殘差模塊和池化層、softmax層按序堆疊最終構(gòu)成一個(gè)WRN。

集成神經(jīng)網(wǎng)絡(luò)語(yǔ)音情感識(shí)別系統(tǒng)

1.RNN語(yǔ)音情感識(shí)別子系統(tǒng)

    RNN子系統(tǒng)的框圖如圖2所示。其中系統(tǒng)的輸入為句子的特征序列s(1),s(2),,S(T),T為句子被分割成的段數(shù),同時(shí)也是RNN網(wǎng)絡(luò)的時(shí)間步數(shù),s(t)為句子中第t段語(yǔ)音提取的特征向量。系統(tǒng)計(jì)算流程如下:在每一時(shí)間步,原始特征向量通過(guò)一層全連接層后進(jìn)入LSTM層;所有時(shí)間步的LSTM層輸出在隨后的池化層進(jìn)行平均,得到這句輸入的全局特征;全局特征輸入softmax層計(jì)算句子屬于每一類(lèi)情感的概率,據(jù)此產(chǎn)生識(shí)別結(jié)果。由于RNN直接對(duì)整個(gè)句子進(jìn)行了處理,訓(xùn)練過(guò)程中只需要使用句子的標(biāo)簽作為訓(xùn)練目標(biāo),訓(xùn)練中損失函數(shù)使用交叉熵。

圖2RNN子系統(tǒng)

    RNN輸入的語(yǔ)音段特征s(t)由某個(gè)時(shí)間窗內(nèi)的幀特征堆疊而成,給定時(shí)間窗長(zhǎng)w和幀特征f(t),s(t)可以表示為。本文中,幀特征包括12維MFCC、能量、過(guò)零率、基頻、聲音質(zhì)量和他們的時(shí)間差分,共計(jì)32維。

2.WRN語(yǔ)音情感識(shí)別子系統(tǒng)

    WRN子系統(tǒng)的框圖如圖3所示。一句話的頻譜在時(shí)間軸上被切分為若干段,頻譜段輸入WRN得到關(guān)于每類(lèi)情感的概率分布。對(duì)這些頻譜段的輸出計(jì)算統(tǒng)計(jì)值作為句子的全局特征,全局特征輸入一層softmax便得到該句話關(guān)于每類(lèi)情感的概率分布,最終得到識(shí)別結(jié)果??偟膩?lái)說(shuō),WRN子系統(tǒng)由兩部分構(gòu)成:一個(gè)對(duì)頻譜段分類(lèi)的WRN分類(lèi)器,一個(gè)對(duì)整個(gè)句子分類(lèi)的softmax分類(lèi)器。系統(tǒng)訓(xùn)練時(shí),首先所有訓(xùn)練樣本被切分為頻譜段,每個(gè)頻譜段被賦予所屬句子的情感標(biāo)簽并輸入WRN訓(xùn)練,隨后訓(xùn)練頻譜段在WRN的輸出按所屬句子聚合并計(jì)算全局特征,由此softmax的訓(xùn)練數(shù)據(jù)變成了以句子為單位并以句子的情感標(biāo)簽為目標(biāo)進(jìn)行訓(xùn)練。

圖3WRN子系統(tǒng)

    該子系統(tǒng)中全局特征按如下方法計(jì)算。以句子i為例,假設(shè)任務(wù)中需識(shí)別K類(lèi)情感,頻譜段s輸入WRN后得到屬于第k類(lèi)情感Ek的概率為Ps(Ek),對(duì),分別計(jì)算以下式子,其中U為屬于i的頻譜段的集合:

(6)  

(7) 

(8)

(9)

,,,分別代表i中所有頻譜段屬于Ek的平均概率、最小概率、最大概率和概率大于0.5的頻率,于是i的全局特征可以表示為

3.集成神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別系統(tǒng)

    集成系統(tǒng)由兩個(gè)基分類(lèi)器和一層集成層softmax組成,如圖4所示。RNN子系統(tǒng)和WRN子系統(tǒng)的輸出結(jié)果都是關(guān)于情感類(lèi)別的概率分布向量,為了實(shí)現(xiàn)集成,本文把兩個(gè)向量相加作為新的全局變量。具體來(lái)說(shuō),給定訓(xùn)練集,其中是語(yǔ)音樣本,是對(duì)應(yīng)標(biāo)簽,N是樣本數(shù)目,首先分別訓(xùn)練RNN和WRN子系統(tǒng),對(duì)樣本i,每個(gè)子系統(tǒng)都產(chǎn)生一個(gè)概率向量,分別記為。兩個(gè)向量相加產(chǎn)生新的全局變量

       (10)

    在集成層,就作為訓(xùn)練數(shù)據(jù)訓(xùn)練softmax分類(lèi)器。

圖4集成網(wǎng)絡(luò)語(yǔ)音情感識(shí)別系統(tǒng)

    測(cè)試階段,測(cè)試語(yǔ)音同時(shí)進(jìn)入兩個(gè)子系統(tǒng)并產(chǎn)生概率分布向量,隨后由式(10)計(jì)算全局變量,輸入集成層產(chǎn)生最終的情感識(shí)別結(jié)果。

結(jié)束語(yǔ)

    針對(duì)語(yǔ)音情感識(shí)別任務(wù),本文運(yùn)用集成方法設(shè)計(jì)和實(shí)現(xiàn)了一種使用循環(huán)神經(jīng)網(wǎng)絡(luò)和寬度殘差網(wǎng)絡(luò)作為基分類(lèi)器的集成系統(tǒng)。該方法致力于結(jié)合擁有不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),從而提高語(yǔ)音情感識(shí)別的準(zhǔn)確率。特別地,循環(huán)神經(jīng)網(wǎng)絡(luò)用于建模序列信息并在句子層次給出識(shí)別結(jié)果,而寬度殘差網(wǎng)絡(luò)學(xué)習(xí)頻譜段的特征表達(dá)并在語(yǔ)音段層次進(jìn)行識(shí)別。實(shí)驗(yàn)證明了該集成系統(tǒng)相比于單分類(lèi)器語(yǔ)音情感識(shí)別系統(tǒng)的有效性,也表明由本文首次引入語(yǔ)音情感識(shí)別領(lǐng)域的寬度殘差網(wǎng)絡(luò)在這方面有著不遜于主流的基于循環(huán)神經(jīng)網(wǎng)絡(luò)方法的性能。令人略感遺憾的是本實(shí)驗(yàn)中由集成方法帶來(lái)的性能提升并不突出,可能的原因有兩點(diǎn),一是實(shí)驗(yàn)采用的數(shù)據(jù)庫(kù)存在數(shù)據(jù)不均衡的問(wèn)題,二是集成方法的設(shè)計(jì)問(wèn)題。關(guān)于這兩點(diǎn),在未來(lái)的工作中,我們將會(huì)探索數(shù)據(jù)增強(qiáng)的方法以緩解數(shù)據(jù)集分布不均衡的問(wèn)題,也將嘗試使用不同的集成方法以增強(qiáng)系統(tǒng)對(duì)語(yǔ)音情感的建模能力。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:利用深度學(xué)習(xí)自動(dòng)識(shí)別胎兒顏...

下一篇:用于行人檢測(cè)的候選區(qū)域框提...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡(jiǎn)介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見(jiàn)反饋|sitemap

傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢(xún)采購(gòu)咨詢(xún)媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號(hào) | 營(yíng)業(yè)執(zhí)照證書(shū) | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)