集成神經(jīng)網(wǎng)絡語音情感識別模型研究

文:羅丹青、鄒月嫻、黃東延2017年第四期

背景

    情感識別有助于為人機交互提供良好的體驗,是未來計算機必備的一項重要能力,因而近年來語音情感識別已經(jīng)逐漸成為一個研究熱點,并有了大量應用。雖然早在20世紀80年代就出現(xiàn)了語音情感識別的相關研究,該課題對于機器而言確實較為棘手。此外,相比語音識別領域,用于語音情感識別的公開數(shù)據(jù)庫少之又少。

語音情感識別系統(tǒng)由兩部分構(gòu)成,即特征提取器和情感識別分類器。

    語音情感識別任務中使用的聲學特征可分為3類:韻律學特征、譜特征和音質(zhì)特征。其中常用的韻律學特征包括時長、基頻、能量等;譜特征一般有LPC、OSALPC等線性譜特征和MFCC、LPCC等倒譜特征;音質(zhì)特征一般有共振峰頻率及其帶寬、頻率微擾、振幅微擾和聲門參數(shù)等。以上聲學特征由于是從語音幀中提取,表征的是短時音頻的特性,也統(tǒng)稱為低層描述子。然而人們對情感的感知往往蘊藏于某一時間段內(nèi)情感的波動表達,所以為了在更長的時間范圍內(nèi)對情感進行描述,通常還計算句子的全局特征。全局特征用于刻畫低層描述子在整句話中的動態(tài)變化信息,因此由低層描述子的統(tǒng)計值組成,常見的統(tǒng)計值有均值、極值、變化范圍、豐度、偏度、矩和線性回歸相關參數(shù)等。特征設計在傳統(tǒng)的語音情感識別方法中是重要的一環(huán),決定了情感特征的好壞。然而,尋找最優(yōu)的特征子集是一項繁瑣的任務,也依據(jù)不同的數(shù)據(jù)庫而有所不同。到目前為止,對于語音情感識別任務還沒有一套公認的最優(yōu)特征集,研究人員大多在實驗中經(jīng)驗性地選擇所需特征。

    根據(jù)特征來源和分類器訓練方法的不同,語音情感識別系統(tǒng)可以在兩個層次進行情感的判斷:短語音段層次和完整句子層次。對于短語音段的語音情感識別,一個句子被切分為多個語音段,使用語音段的特征訓練分類器。低層描述子在從語音幀提取出來后,被輸入到序列分類器以模擬說話人的情感分布狀態(tài),這樣的序列分類器通常使用高斯混合模型和隱馬爾可夫模型進行建模。在訓練時短語音段的情感標簽就是所屬句子的情感標簽;測試時,由于一句話有多個語音段的識別結(jié)果,對它們進行大多數(shù)投票得到最終的識別結(jié)果。對于完整句子層次的語音情感識別,分類器輸入的是從整個句子提取的特征。首先由低層描述子和統(tǒng)計函數(shù)計算句子的全局特征,最后全局特征輸入到一個判別分類器進行句子情感的識別。這樣的判別分類器包括幾乎所有的傳統(tǒng)分類器,如支持向量機、決策樹、K鄰近模型等。

    近年來,深度神經(jīng)網(wǎng)絡因其具有強大的從原始數(shù)據(jù)學習層級特征的能力,也被引入了語音情感識別領域。Han等人設計了DNN用于學習短時語音段情感特征,后端使用極限學習機對全局特征進行句子層次的情感分類。Lee等人提出了基于最大似然學習準則的循環(huán)神經(jīng)網(wǎng)絡對隨機語音段標簽序列進行建模,極大提升了語音情感識別的準確率。Mirsamadi等人針對語音情感識別探索了不同的RNN結(jié)構(gòu),并提出了注意力機制對不同情感重要程度的語音幀進行加權(quán)。Mao等人設計了卷積神經(jīng)網(wǎng)絡來學習語音中顯著具有判別性的情感特征。

    在同一個數(shù)據(jù)庫上比較以上不同的方法,可以發(fā)現(xiàn)它們的混淆矩陣有很大差異。盡管使用相同的低層描述子,不同分類器在每個情感類別上都獲得了不一致的識別率。該現(xiàn)象說明單一的分類器無法在所有情感類別上都表現(xiàn)良好,例如可能SVM無法有效識別出“高興”而DNN分類器卻可以。這樣的差異除了與數(shù)據(jù)不均衡有關,還與分類器自身的建模能力直接相關。

    從該結(jié)論出發(fā),為了提高語音情感識別的準確率,本文提出一種使用兩類神經(jīng)網(wǎng)絡作為基分類器的集成學習方法。正如文獻所說,集成系統(tǒng)中的基分類器應該盡可能地具有不同結(jié)構(gòu)來達到更好的泛化性能,本文選擇了適于處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡和在圖像分類中性能突出的寬度殘差網(wǎng)絡作為基分類器。

基分類器介紹

1.長短時記憶循環(huán)神經(jīng)網(wǎng)絡

    由于本身獨特的結(jié)構(gòu),RNN擁有強大的處理序列數(shù)據(jù)的能力。隱含層在前后時間步間的連接使上一步的隱含層狀態(tài)能夠傳遞給當前步的隱含層。如此循環(huán)傳遞下去,序列中第一步的信息就能傳遞到最后一步,序列相關性得以建模。然而,當輸入序列達到一定長度,由于梯度消失問題RNN的性能會急劇下降,長短時記憶模型就是為了克服該問題而設計的。

    總體來說,一個LSTM模塊包括四個元素:輸入門i、遺忘門f、輸出門o和記憶單元c,三個門負責調(diào)節(jié)記憶單元前后時間步狀態(tài)之間的關系。以某個時間步t為例,RNN的輸入是xt,三個門和記憶單元的狀態(tài)依次是it、ft、ot和ct,該層LSTM的輸出是ht,它們之間的關系由下式表示:

     

    其中Wx.、Wh.、Wc.分別是輸入層、隱含層輸出、記憶單元與各個門的連接權(quán)重;b.代表各個門的偏置。

2.寬度殘差網(wǎng)絡

    眾所周知,同樣是出于梯度消失,CNN層數(shù)越多越難訓練。為了訓練深層的卷積網(wǎng)絡,殘差網(wǎng)絡得以提出。實驗證明殘差網(wǎng)絡可以在比傳統(tǒng)CNN層數(shù)深得多的情況下取得優(yōu)越的圖像識別性能。受殘差網(wǎng)絡加深層數(shù)的啟發(fā),文獻中提出了寬度殘差網(wǎng)絡,以更淺層數(shù)、更大寬度的網(wǎng)絡結(jié)構(gòu)進一步提升了圖像識別準確率。

    殘差網(wǎng)絡由殘差模塊順序堆疊構(gòu)成,一個殘差模塊中通常包括兩個卷積層,每個卷積層前面分別有一個批歸一化層和ReLu激活函數(shù)層。對比普通的殘差網(wǎng)絡,WRN把每層卷積層中的卷積核個數(shù)擴展為原來的K倍,加寬了卷積層以提高它們的特征學習能力。研究表明WRN可以用淺得多的層數(shù)達到與普通殘差網(wǎng)絡相同的圖像識別率。圖1展示了一個殘差模塊和一個WRN的結(jié)構(gòu)。圖1中WRN使用了四類殘差模塊,它們的卷積核數(shù)目分別為16、、。連續(xù)N個同類殘差模塊堆疊為一個組,四組殘差模塊和池化層、softmax層按序堆疊最終構(gòu)成一個WRN。

集成神經(jīng)網(wǎng)絡語音情感識別系統(tǒng)

1.RNN語音情感識別子系統(tǒng)

    RNN子系統(tǒng)的框圖如圖2所示。其中系統(tǒng)的輸入為句子的特征序列s(1),s(2),,S(T),T為句子被分割成的段數(shù),同時也是RNN網(wǎng)絡的時間步數(shù),s(t)為句子中第t段語音提取的特征向量。系統(tǒng)計算流程如下:在每一時間步,原始特征向量通過一層全連接層后進入LSTM層;所有時間步的LSTM層輸出在隨后的池化層進行平均,得到這句輸入的全局特征;全局特征輸入softmax層計算句子屬于每一類情感的概率,據(jù)此產(chǎn)生識別結(jié)果。由于RNN直接對整個句子進行了處理,訓練過程中只需要使用句子的標簽作為訓練目標,訓練中損失函數(shù)使用交叉熵。

圖2RNN子系統(tǒng)

    RNN輸入的語音段特征s(t)由某個時間窗內(nèi)的幀特征堆疊而成,給定時間窗長w和幀特征f(t),s(t)可以表示為。本文中,幀特征包括12維MFCC、能量、過零率、基頻、聲音質(zhì)量和他們的時間差分,共計32維。

2.WRN語音情感識別子系統(tǒng)

    WRN子系統(tǒng)的框圖如圖3所示。一句話的頻譜在時間軸上被切分為若干段,頻譜段輸入WRN得到關于每類情感的概率分布。對這些頻譜段的輸出計算統(tǒng)計值作為句子的全局特征,全局特征輸入一層softmax便得到該句話關于每類情感的概率分布,最終得到識別結(jié)果??偟膩碚f,WRN子系統(tǒng)由兩部分構(gòu)成:一個對頻譜段分類的WRN分類器,一個對整個句子分類的softmax分類器。系統(tǒng)訓練時,首先所有訓練樣本被切分為頻譜段,每個頻譜段被賦予所屬句子的情感標簽并輸入WRN訓練,隨后訓練頻譜段在WRN的輸出按所屬句子聚合并計算全局特征,由此softmax的訓練數(shù)據(jù)變成了以句子為單位并以句子的情感標簽為目標進行訓練。

圖3WRN子系統(tǒng)

    該子系統(tǒng)中全局特征按如下方法計算。以句子i為例,假設任務中需識別K類情感,頻譜段s輸入WRN后得到屬于第k類情感Ek的概率為Ps(Ek),對,分別計算以下式子,其中U為屬于i的頻譜段的集合:

,,,分別代表i中所有頻譜段屬于Ek的平均概率、最小概率、最大概率和概率大于0.5的頻率,于是i的全局特征可以表示為。

3.集成神經(jīng)網(wǎng)絡的語音情感識別系統(tǒng)

    集成系統(tǒng)由兩個基分類器和一層集成層softmax組成,如圖4所示。RNN子系統(tǒng)和WRN子系統(tǒng)的輸出結(jié)果都是關于情感類別的概率分布向量,為了實現(xiàn)集成,本文把兩個向量相加作為新的全局變量。具體來說,給定訓練集,其中是語音樣本,是對應標簽,N是樣本數(shù)目,首先分別訓練RNN和WRN子系統(tǒng),對樣本i,每個子系統(tǒng)都產(chǎn)生一個概率向量,分別記為。兩個向量相加產(chǎn)生新的全局變量

       (10)

    在集成層,就作為訓練數(shù)據(jù)訓練softmax分類器。

圖4集成網(wǎng)絡語音情感識別系統(tǒng)

    測試階段,測試語音同時進入兩個子系統(tǒng)并產(chǎn)生概率分布向量,隨后由式(10)計算全局變量,輸入集成層產(chǎn)生最終的情感識別結(jié)果。

結(jié)束語

    針對語音情感識別任務,本文運用集成方法設計和實現(xiàn)了一種使用循環(huán)神經(jīng)網(wǎng)絡和寬度殘差網(wǎng)絡作為基分類器的集成系統(tǒng)。該方法致力于結(jié)合擁有不同架構(gòu)的深度神經(jīng)網(wǎng)絡的優(yōu)勢,從而提高語音情感識別的準確率。特別地,循環(huán)神經(jīng)網(wǎng)絡用于建模序列信息并在句子層次給出識別結(jié)果,而寬度殘差網(wǎng)絡學習頻譜段的特征表達并在語音段層次進行識別。實驗證明了該集成系統(tǒng)相比于單分類器語音情感識別系統(tǒng)的有效性,也表明由本文首次引入語音情感識別領域的寬度殘差網(wǎng)絡在這方面有著不遜于主流的基于循環(huán)神經(jīng)網(wǎng)絡方法的性能。令人略感遺憾的是本實驗中由集成方法帶來的性能提升并不突出,可能的原因有兩點,一是實驗采用的數(shù)據(jù)庫存在數(shù)據(jù)不均衡的問題,二是集成方法的設計問題。關于這兩點,在未來的工作中,我們將會探索數(shù)據(jù)增強的方法以緩解數(shù)據(jù)集分布不均衡的問題,也將嘗試使用不同的集成方法以增強系統(tǒng)對語音情感的建模能力。

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權(quán)利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關注中國傳動網(wǎng)公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期