技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 基于深度神經(jīng)網(wǎng)絡(luò)和少量視音頻訓(xùn)練樣本的自然情景下的情緒識別

基于深度神經(jīng)網(wǎng)絡(luò)和少量視音頻訓(xùn)練樣本的自然情景下的情緒識別

時間:2018-07-06 16:05:26來源:作者較多,參考正文詳細(xì)列出

導(dǎo)語:?本文介紹了團(tuán)隊在2016年自然情景下音視頻情緒識別挑戰(zhàn)(EmotionRecognitionintheWildChallenge2016)的參賽系統(tǒng)。EmotiW2016挑戰(zhàn)的任務(wù)是根據(jù)視頻片段中人物的表情動作和聲音將視頻按七種基本情緒(無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡)進(jìn)行分類。

文:WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5

1.CentralChinaNormalUniversity,China

2.UniversityofBritishColumbia,Canada

3.ASTAR,Singapore

4.NanyangTechnologicalUniversity,Singapore

5.ECEDepartment,NationalUniversityofSingapore,Singapore

摘要

本文介紹了團(tuán)隊在2016年自然情景下音視頻情緒識別挑戰(zhàn)(EmotionRecognitionintheWildChallenge2016)的參賽系統(tǒng)。EmotiW2016挑戰(zhàn)的任務(wù)是根據(jù)視頻片段中人物的表情動作和聲音將視頻按七種基本情緒(無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡)進(jìn)行分類。EmotiW2016挑戰(zhàn)任務(wù)的訓(xùn)練和測試數(shù)據(jù)來源于電影和電視真人秀節(jié)目的片段。本文提出的解決方案首先基于視頻(臉部表情)和音頻兩個信息通道來分別進(jìn)行情緒識別,然后將臉部識別和聲音識別子系統(tǒng)的預(yù)測結(jié)果進(jìn)行融合(ScoreLevelFusion)。視頻情緒識別首先提取臉部表情圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征。圖像特征提取所使用的深度卷積神經(jīng)網(wǎng)絡(luò)以預(yù)先訓(xùn)練好的ImageNet神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),然后在FER2013圖像數(shù)據(jù)集上針對臉部情緒識別任務(wù)進(jìn)行微調(diào)(FineTuning);然后基于CNN特征和三種圖像集合模型(ImageSetModel)提取視頻特征;最后使用不同的核分類器(SVM,PLS等)來對臉部視頻進(jìn)行情緒分類。音頻情感識別則沒有利用外部數(shù)據(jù)集而是直接使用挑戰(zhàn)數(shù)據(jù)集來訓(xùn)練長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)。實驗結(jié)果表明文本提出的視頻識別子系統(tǒng)、音頻識別子系統(tǒng)以及他們的融合在準(zhǔn)確率方面均能達(dá)到當(dāng)前最先進(jìn)的性能。該系統(tǒng)在EmotiW2016挑戰(zhàn)的測試數(shù)據(jù)集上的識別準(zhǔn)確率為53.9%,比基準(zhǔn)線(40.47%)高出13.5%。

引言

作為人機(jī)情感交互的關(guān)鍵技術(shù)之一,基于音視頻信號的情緒識別這一課題的研究已活躍了數(shù)十年。早期的音視頻情緒識別研究主要集中在實驗室擺拍條件下的情緒識別。近年來隨著技術(shù)的發(fā)展,越來越多的研究者開始把注意力轉(zhuǎn)向了自然情景下的情緒識別。諸如面部表情識別和分析挑戰(zhàn)(FacialExpressionRecognitionandAnalysisChallenge,F(xiàn)ERA)[1]、音頻/視覺情緒挑戰(zhàn)(Audio/VisualEmotionChallenge,AVEC)[2]以及自然情境下的情感識別(EmotionRecognitionintheWildChallenge,EmotiW)[3]已經(jīng)成為人們研究和測試其自然情景下情緒識別方法的基準(zhǔn)(Benchmark)。對于情緒識別,臉部表情和聲音是最主要的兩個信息通道。在所有的情緒表達(dá)信息中,臉部和聲音部分占了近93%[4]。基于時間維度特征提取方法的不同,臉部情緒識別可以分為三類。第一類基于人工設(shè)計的時空特征(諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。

第一類方法將視頻數(shù)據(jù)視為三維像素體序列,沿著像素體的每一面(空間和時空維度)進(jìn)行紋理特征的提取。第二類方法將視頻視為一組圖像,基于圖像集合的建模方法(ImageSetModeling)來提取視頻特征并用于情緒識別?;趫D像集的方法將視頻幀視為在不同條件下(姿態(tài),照明等)捕獲的同一對象的圖像。第三類方法利用序列模型(SequenceModel),如遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)來捕獲視頻所包含的的情緒識別的時間維度特征。與基于時空特征的方法相比,基于圖像集的方法和RNN方法對面部表情在時間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓(xùn)練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識別結(jié)果[8-9,37]。在視頻幀的圖像特征提取方面,一種方式是使用人工設(shè)計的特征,如Liu等人[8]將DenseSIFT[9],HistogramofOrientedGradients(HOG)[10]等傳統(tǒng)特征與不同的圖像集建模方法[11-14]進(jìn)行結(jié)合以用于臉部視頻的情緒識別。[8]所展示的實驗結(jié)果還表明不同的傳統(tǒng)圖像特征對臉部情緒識別還具有互補(bǔ)作用。

Yao等人[15]定義了一種基于臉部圖像局部區(qū)域之間的差異的情緒識別特征。他們首先通過臉部正面化(frontalization)技術(shù)來配準(zhǔn)局部區(qū)域[16],然后在局部區(qū)域上提取LBP特征,最后使用特征選擇來檢測最具差異性的區(qū)域并將這些區(qū)域的LBP特征值的差值作為人臉圖像的情緒識別特征。他們的方法在EmotiW2015中的靜態(tài)和視音頻情緒識別挑戰(zhàn)上均取得了良好的效果。除了人工設(shè)計圖像特征之外,圖像特征提取的另一種方法是使用深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN)。

這里的“深”表示網(wǎng)絡(luò)具有三個以上的卷積層。DCNN是一種端到端的圖像分類模型,其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓(xùn)練有效的DCNN通常需要大量的數(shù)據(jù)樣本(如10萬張臉部表情圖像);然而目前公開的臉部情緒識別的數(shù)據(jù)集通常很?。ㄈ鏔ER2013只有3萬張圖像)。為了解決這一問題,Liu等人[8]使用人臉識別數(shù)據(jù)集CFW[18](約17萬張圖像)來訓(xùn)練DCNN。實驗表明學(xué)習(xí)到的DCNN特征比傳統(tǒng)的手工特征(Dense-SIFT和HOG)效果更好。Ng等人[19]利用遷移學(xué)習(xí)策略,將預(yù)先訓(xùn)練好的通用圖像識別網(wǎng)絡(luò)作為情緒識別網(wǎng)絡(luò)的初始化,再FER-2013數(shù)據(jù)集[20]對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練(權(quán)值的微調(diào))。經(jīng)過微調(diào)的DCNN在EmotiW2015靜態(tài)面部表情識別子挑戰(zhàn)中取得了不錯的成績。Kim等人[37]基于決策融合方法,直接使用小數(shù)據(jù)集訓(xùn)練多個DCNN并將DCNN對與臉部圖片的情緒預(yù)測結(jié)果進(jìn)行均值融合。不過多個DCNN的特征融合方法仍有待研究。

在音頻情緒識別方面,經(jīng)驗表明情緒識別音頻特征與臉部視覺特征互補(bǔ)。將基于面部和基于音頻的情緒識別結(jié)果進(jìn)行融合可以取得比單一通道更好的結(jié)果[8-9,21-22]。近年來LSTM-RNN[26]在語音情感識別和其他聲學(xué)建模任務(wù)中得到了普遍地使用[2,22-23,27-29]。與傳統(tǒng)的隱馬爾可夫模型(HMM)[23]和標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)(StandardRNN)等模型相比,LSTM-RNN可以提取較長時間間隔(例如>100個時間步長)的關(guān)聯(lián)特征而不會遇到梯度消失等問題[25]。

本文所介紹的系統(tǒng)結(jié)合了不同的方法。臉部視頻情緒識別基于DCNN特征和圖像集合建模,音頻情緒識別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個方面是DCNN圖像特征的提取采用了基于權(quán)值微調(diào)的遷移學(xué)習(xí)方法,基于少量樣本訓(xùn)練得到的臉部圖像情緒識別DCNN特征的表現(xiàn)超過臉部識別大數(shù)據(jù)集訓(xùn)練所得到的DCNN特征[19]。第二個方面是我們所訓(xùn)練使用的音頻情緒識別LSTM-RNN模型,只使用了少量的訓(xùn)練樣本(EmotiW2016所提供的773個音頻句子),但是在識別率方面仍然超出基準(zhǔn)方法7%。方法的細(xì)節(jié)將在后面章節(jié)中具體介紹。

1.提出的方法

1.1基于面部視頻的情緒識別

本文所提出的面部視頻情緒識別方法由由三個步驟組成。第一步是對視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動態(tài)特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13],因此在特征提取后使用核函數(shù)將它們映射到歐幾里德空間進(jìn)行最終分類。在我們所使用的方法中,第二步和第三步直接應(yīng)用了文獻(xiàn)[8]所提供的開源代碼進(jìn)行動態(tài)特征提取和分類。

1.1.1DeepCNN圖像特征

卷積神經(jīng)網(wǎng)絡(luò)借鑒了動物視覺皮層中神經(jīng)元的組織結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)通過局部連通性(LocalConnectivity)、權(quán)值共享(WeightSharing)和池化(Pooling)等技術(shù)來達(dá)到諸如減少網(wǎng)絡(luò)復(fù)雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層,卷積層的輸出可以作為輸入圖像的特征描述。假設(shè)輸入圖像是IW,H,C,其中W表示寬度,H表示高度,C表示通道的數(shù)量(一般輸入圖像為RGB通道)。對于I中的一個局部區(qū)域Lw,h,C,

(1)

其中Kw,h,C是與L大小相同的核(kernel);*表示卷積運(yùn)算;b表示偏差變量(bias);σ表示激活函數(shù)(activationfunction),在實踐中通常是整流線性單元(RELU);oL表示L區(qū)域的特征值。通過將核K與I中的每個局部區(qū)域進(jìn)行卷積計算,我們可以得到特征圖M,然后將其作為圖像特征向量用于進(jìn)一步處理。

1.1.2臉部視頻的動態(tài)特征

給定d維圖像特征f,可將視頻視為一組圖像特征向量F=[f1,f2...fn],其中fi?Rd是視頻第i幀對應(yīng)的特征向量。三種圖像集合模型被用于從F中提取視頻(圖像集合)特征,它們分別是線性子空間(LinearSubspace)[14],協(xié)方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對應(yīng)的特征向量P通過以下方式計算:

(2)

其中P=[p1,p2...pr],pj(j?[1,r])表示主特征向量(eigenvector)。

協(xié)方差矩陣C通過以下方式找到:

(3)

其中表示圖像特征的平均值。假設(shè)F中的特征向量遵循d維高斯分布N(μ,∑),μ分別表示均值和協(xié)方差。高斯分布的特征通過以下方式計算定義:

(4)

(5)

1.1.3核函數(shù)和分類器

在核函數(shù)方面,我們選擇了多項式(Polynomial)和RBF(Radialbasisfunction)兩種核函數(shù)。在分類器方面我們采用了PLS(PartialLeastSquaresRegression)[30]。Liu等人在EmotiW2014數(shù)據(jù)集上的實驗結(jié)果[8]顯示PLS在面部情緒識別方面優(yōu)于支持向量機(jī)(SVM)和LogisticRegression;我們在EmotiW2016的數(shù)據(jù)集上也觀察到相同的趨勢。給定視頻特征變量X和0-1標(biāo)簽Y(七種基本情緒識別可以視作七個二分類任務(wù)),PLS分類器將它們分解為

其中Ux和Uy是projectedX-scores和Y-scores,Vx和Vy分別表示loadings,rx和ry表示residuals。PLS通過找到在其列向量之間具有最大協(xié)方差的Ux和Uy來確定X和Y之間的回歸系數(shù)。假設(shè)UX和UY是最大協(xié)方差投影,則回歸系數(shù)β由下式給出:

給定一個視頻特征向量x,它對應(yīng)的分類預(yù)測為.

1.2基于音頻的情緒識別

基于音頻的情緒識別方法首先逐幀提取聲學(xué)特征,然后通過訓(xùn)練LSTM-RNN(LongShort-TermMemoryRecurrentNeuralNetwork)進(jìn)行時間維度特征的提取和情緒分類。假設(shè)一個影片剪輯所對應(yīng)的音頻特征序列是F=[f1,f2...fn],所對應(yīng)的情緒分類標(biāo)簽是c。在訓(xùn)練LSTM-RNN之前我們逐幀定義情緒標(biāo)簽C=[c1,c2...cn],其中ci=cforifrom1ton。對應(yīng)的LSTM所輸出的也是逐幀的預(yù)測結(jié)果。我們?nèi)≈饚A(yù)測結(jié)果的平均值作為視頻剪輯的情緒識別的最終預(yù)測結(jié)果。

1.2.1音頻特征

方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來進(jìn)行情緒識別。eGeMAPS中的音頻特征集基于專家知識設(shè)計,與傳統(tǒng)的高維特征集[32]相比eGeMAPS僅有88維特征,但是對語音情感建模問題表現(xiàn)出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外,eGeMAPS還包含arithmeticmean和coefficientofvariation等統(tǒng)計特征。

1.2.2LSTM-RNN

相比sigmoid和tanh等傳統(tǒng)的激活函數(shù),LSTM-RNN使用一種特殊的激活函數(shù)稱為MemoryBlocks。LSTMMemoryBlocks的結(jié)構(gòu)如圖2所示。對于一個網(wǎng)絡(luò)層中MemoryBlock而言它在t時刻的輸入是前一網(wǎng)絡(luò)層在t時刻的輸出xt,,和當(dāng)前Block在t-1時刻的輸出ht-1。MemoryBlock的結(jié)構(gòu)由四個主要部分組成。這四個主要部分是:inputgate,memorycell,forgetgate以及outputgate。Memorycell結(jié)構(gòu)具有一個權(quán)值為1.0的自連接。Memorycell結(jié)構(gòu)確保在排除外部輸入的情況下,MemoryCell的狀態(tài)保持恒定。Inputgate允許(或屏蔽)輸入信號對memorycell的狀態(tài)或者進(jìn)行改變。Outputgate允許(或屏蔽)memorycell的狀態(tài)對block的輸出進(jìn)行改變。Forgetgate可以調(diào)整memorycell的自回復(fù)連接,使cell根據(jù)需要選擇保持或清除其之前的狀態(tài)。MemoryBlock的計算過程如下所示:

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);

表示t時刻cell的狀態(tài)候選;f,c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時刻的最終輸出。

1.3系統(tǒng)的融合

基于面部視頻和音頻子系統(tǒng)的預(yù)測結(jié)果我們進(jìn)一步進(jìn)行了融合。融合引入了一個加權(quán)向量w=[λ1,λ2…λc]。其中c表示情緒類別的數(shù)量。最終預(yù)測結(jié)果S的計算方法為

其中SAandSV分別表示音頻和視頻子系統(tǒng)的情緒識別預(yù)測結(jié)果。

2.實驗

2.1EmotiW2016數(shù)據(jù)

基于視音頻的情緒識別是EmotiW2016所設(shè)立的子挑戰(zhàn)之一。數(shù)據(jù)集的樣本為多媒體視頻片段。樣本所對應(yīng)的情緒狀態(tài)通過[40]中所定義的半自動方法進(jìn)行標(biāo)注?;谝曇纛l的情緒識別的任務(wù)是設(shè)計算法自動對視頻片段按七種基本情緒狀態(tài)(憤怒(Ang)、厭惡(Dis)、恐懼(Fea)、快樂(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur))進(jìn)行分類。EmotiW2016是EmotiW2013-15的延續(xù),主要變化在于除了從電影中提取的視頻片段之外,還將真人秀節(jié)目的視頻片段引入到測試集中,以測試在基于電影數(shù)據(jù)所訓(xùn)練的情緒識別方法的通用性。子挑戰(zhàn)的數(shù)據(jù)集包含1739個視頻片段:其中訓(xùn)練集(Train)的樣本數(shù)為773個,驗證集(Validation)的樣本數(shù)為373個,測試集(Test)的樣本數(shù)為593個。挑戰(zhàn)的最終結(jié)果以系統(tǒng)在測試集上的準(zhǔn)確率為準(zhǔn)。

2.2深度神經(jīng)網(wǎng)絡(luò)的實現(xiàn)

2.2.1CNN圖像特征提取

我們使用Caffe工具包[38],和FER2013數(shù)據(jù)集對預(yù)先訓(xùn)練的AlexNetDeepCNN模型[39]進(jìn)行微調(diào)。預(yù)訓(xùn)練的AlexNet模型和FER2013數(shù)據(jù)集都是公開的。在使用FER2013數(shù)據(jù)集(~28000張臉部圖像)時,我們首先將FER2013默認(rèn)的48x48x1圖像尺寸縮放至256x256x3以適應(yīng)AlexNet模型的輸入要求。網(wǎng)絡(luò)的訓(xùn)練采用隨機(jī)梯度下降(stochasticgradientdescent)算法。算法的hyper-parameters定義為momentum=0.9,weightdecay=0.0005,initiallearningrate(基準(zhǔn))=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個FullyConnectedLayer完全重新訓(xùn)練而不保留AlexNet的權(quán)值,因此其initiallearningrate的倍數(shù)增加到4,為0.004而不是0.001。訓(xùn)練終止的策略為EarlyStopping,即驗證集上的識別率不再提高即停止訓(xùn)練。訓(xùn)練好的網(wǎng)絡(luò)模型的最后一個Poolinglayer的輸出即作為面部情緒識別的圖像特征。

2.2.2音頻特征提取

我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號,并將信號轉(zhuǎn)換為16kHz單聲道。然后,我們使用OpenSMILE工具包[35]來逐幀提取eGeMAPS音頻特征。在實驗中音頻幀的長度定義為0.04s。

2.2.3LSTM-RNN的結(jié)構(gòu)

我們評估了六種不同的BLSTM-RNN結(jié)構(gòu)以用于音頻情緒識別。六種LSTM-RNN的結(jié)構(gòu)如表2所示。

實驗中音頻LSTM的實現(xiàn)和訓(xùn)練使用的是CURRENNT工具包[36]。訓(xùn)練網(wǎng)絡(luò)的learningrate為1e-5,batchsize為10個句子(每個句子對應(yīng)于從一個影片剪輯中提取的音頻特征序列)。同樣LSTM訓(xùn)練的終止策略也是earlystopping。基于隨機(jī)初始化的網(wǎng)絡(luò)權(quán)值,我們對六種LSTM結(jié)構(gòu)中的每一種進(jìn)行10次訓(xùn)練。LSTM在驗證數(shù)據(jù)集上的識別率在31-35%之間,其中最好的模型基于結(jié)構(gòu)4。我們將其作為音頻情緒識別的最終模型。

3.系統(tǒng)評估

為了測試評估CNN圖像特征的表現(xiàn)。我們使用三種分類器(PLS,SVM和LogisticRegression)分別在EmotiW2014和2016兩個數(shù)據(jù)集的驗證集上進(jìn)行了測試。測試結(jié)果如表5和表6所示。

結(jié)果表明基于CNN和傳統(tǒng)手工特征PLS均表現(xiàn)出優(yōu)于SVM和LogisticRegression分類器的分類性能。我們接著評估了不同方法的組合,如表7所示?;趯嶒灲Y(jié)果,我們在最終系統(tǒng)中選擇了DenseSIFT圖像特征和CNN圖像特征來用于基于人臉視頻的情緒識別。在音頻情緒識別方面我們將LSTM方法與傳統(tǒng)方法(EmotiW2014Baseline)進(jìn)行了比較,結(jié)果如圖4所示。實驗結(jié)果表明LSTM方法的準(zhǔn)確度比傳統(tǒng)方法的識別準(zhǔn)確率高出了8%。

最后一個實驗是視頻和音頻系統(tǒng)的融合。我們測試了三種融合方案:第一種是其中情緒類別的融合均使用相同的權(quán)重;第二和第三種是對于每個情緒類別的子系統(tǒng)賦予不同的權(quán)重。在驗證數(shù)據(jù)集上的結(jié)果表明基于LSTM的音頻識別方法在進(jìn)行恐懼和悲傷情緒分類時表現(xiàn)得很好(優(yōu)于視頻方法),但對厭惡和驚訝兩種情緒的分類效果不佳。實驗結(jié)果同時顯示使用不同的權(quán)重進(jìn)行系統(tǒng)融合能更好地結(jié)合子系統(tǒng)的相對優(yōu)勢和弱點(diǎn),達(dá)到比統(tǒng)一權(quán)值更好的融合效果。表3列出了實驗所測試的三種融合方案。融合方案3在驗證數(shù)據(jù)集以及最終測試數(shù)據(jù)集上取得了最佳結(jié)果,在測試集上的識別準(zhǔn)確率達(dá)到了53.9%。

實驗結(jié)果表明:一、本文所提出的方法在識別憤怒和快樂兩種情緒時效果最好,分別獲得了80%和75%的準(zhǔn)確率。這兩個識別結(jié)果與EmotiW2014和2015年的第一名的方法的表現(xiàn)持平。二、與14和15年的第一名方法相比,基于LSTM的音頻情緒識別方法在恐懼情緒的識別準(zhǔn)確率方面取得了10%的提升。三、與2014第一名和2015第一名方法相比,本文的方法對于無情緒(Neutral)狀態(tài)的識別上存在著過擬合的問題。具體表現(xiàn)在無情緒狀態(tài)的識別在開發(fā)數(shù)據(jù)集上取得了約70%的準(zhǔn)確率,與兩種第一名方法持平,但是但在測試數(shù)據(jù)集上較差,識別準(zhǔn)確率下降了約7%。

4.總結(jié)

本文提出了一種基于視音頻的自然情景下的情緒識別方法,該方法只利用了少量的樣本數(shù)據(jù)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)確能夠達(dá)到目前最先進(jìn)的識別準(zhǔn)確率。本文提出的方法在EmotiW2016測試集上達(dá)到了53.9%的識別準(zhǔn)確率,相比比基線的40.47%[41]高出了13.5%。測試結(jié)果表明:一、當(dāng)可用于訓(xùn)練的臉部視頻情緒識別數(shù)據(jù)量較少時,基于DCNN權(quán)值微調(diào)的遷移學(xué)習(xí)策略是一種有效的方法;二、對于音頻情緒識別,直接使用EmotiW2016所提供的少量的訓(xùn)練數(shù)據(jù)和LSTM-RNN模型就可以得到相比傳統(tǒng)方法更好的識別效果。我們今后的工作將分兩個方向進(jìn)行。首先是通過考察不同的預(yù)先訓(xùn)練的DCNN和不同微調(diào)策略來獲取更有效的為臉部情緒識別特征。其次是對基于音頻的情緒識別進(jìn)行更深入的研究,通過設(shè)計更有效LSTM-RNN模型來提高音頻識別效果。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:智能語音增強(qiáng)助聽設(shè)備:基于...

下一篇:伺服電機(jī)做負(fù)載的優(yōu)勢

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號