時(shí)間:2019-05-15 18:01:21來(lái)源:孫思寧,王雄,謝磊
1.摘要
本文將對(duì)抗樣本用于語(yǔ)音識(shí)別和關(guān)鍵詞檢出中深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練過(guò)程中,以用來(lái)提高聲學(xué)模型的魯棒性。在模型訓(xùn)練過(guò)程中,使用基于快速符號(hào)梯度方法來(lái)產(chǎn)生對(duì)抗樣本作為原始訓(xùn)練樣本的擴(kuò)充,與傳統(tǒng)的基于數(shù)據(jù)變換的數(shù)據(jù)擴(kuò)充方式不同,本文所提出的方法是一種模型和數(shù)據(jù)相關(guān)的方法,在模型訓(xùn)練過(guò)程中,根據(jù)模型的參數(shù)和當(dāng)前訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。在本文中,對(duì)于語(yǔ)音識(shí)別任務(wù),我們?cè)贏urora-4數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn),我們提出的方法能夠顯著地提高模型對(duì)噪聲和信道的魯棒性,而且,我們將本文所提出的數(shù)據(jù)擴(kuò)充方式和教師/學(xué)生學(xué)習(xí)策略結(jié)合,在Aurora-4數(shù)據(jù)庫(kù)上,我們可以得到23%的相對(duì)詞錯(cuò)誤率下降。在關(guān)鍵詞檢出任務(wù)中,我們所提出的方法也明顯地降低了基于注意力機(jī)制的喚醒模型的誤喚醒率和誤拒絕率。
關(guān)鍵詞:魯棒語(yǔ)音識(shí)別,關(guān)鍵詞檢出,對(duì)抗樣本,快速符號(hào)梯度法,數(shù)據(jù)擴(kuò)充
2.前言
近年來(lái),隨著深度學(xué)習(xí)(DeepLearning,DL)的興起以及深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,DNNs)在聲學(xué)模型上的成功應(yīng)用,自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)[1][2]和關(guān)鍵詞檢出(KeywordSpotting,KWS)[3][4]得到了快速發(fā)展。各種網(wǎng)絡(luò)結(jié)構(gòu),例如CNN,RNN和LSTM等,都成功應(yīng)用在聲學(xué)建模中?;贒NNs的聲學(xué)模型在實(shí)際應(yīng)用中,表現(xiàn)出了良好的噪聲魯棒性,因?yàn)槠涮厥饨Y(jié)構(gòu)以及多層非線性變換,讓其具有較強(qiáng)的建模能力。即便如此,基于DNNs的ASR和KWS系統(tǒng),仍然還會(huì)受到噪聲、混響以及信道等因素的影響[6],造成識(shí)別性能地下降。為了解決這些問(wèn)題,大量的工作在不同的方面被提出來(lái),比如數(shù)據(jù)擴(kuò)充[7]、單/多通道語(yǔ)音增強(qiáng)、特征變換,還有一些有效的學(xué)習(xí)策略,比如教師/學(xué)生(Teacher/Student,T/S)學(xué)習(xí)[8]、對(duì)抗訓(xùn)練[9]等。在本文中,我們主要集中在數(shù)據(jù)擴(kuò)充的方法,來(lái)提高ASR和KWS系統(tǒng)的魯棒性。
當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間存在分布的不匹配時(shí),聲學(xué)模型的性能將會(huì)大打折扣。為了彌補(bǔ)這種不匹配的問(wèn)題,數(shù)據(jù)擴(kuò)充是一個(gè)非常有效而且被廣泛采用的方法,數(shù)據(jù)擴(kuò)充的目的是通過(guò)對(duì)干凈數(shù)據(jù)添加噪聲、混響等干擾,產(chǎn)生干凈數(shù)據(jù)的帶噪副本,模擬真實(shí)的帶噪數(shù)據(jù),提高訓(xùn)練數(shù)據(jù)的多樣性,然后將其用于模型訓(xùn)練。這種訓(xùn)練方式,被稱作多場(chǎng)景訓(xùn)練。此外,T/S學(xué)習(xí)也是一種常用的提高模型魯棒性的方法,它可以在有監(jiān)督或者無(wú)監(jiān)督的場(chǎng)景下進(jìn)行使用,T/S學(xué)習(xí)需要并行的數(shù)據(jù)分別訓(xùn)練T模型和S模型。
為了提高模型對(duì)于噪聲的魯棒性,本文提出來(lái)一種使用對(duì)抗樣本來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充的方法。對(duì)抗樣本(AdversarialExamples)的概念首先是在[10]中計(jì)算機(jī)視覺(jué)任務(wù)上被提出來(lái),研究者們發(fā)現(xiàn),對(duì)于一個(gè)已經(jīng)被完全訓(xùn)練好的圖像識(shí)別網(wǎng)絡(luò),如果對(duì)一個(gè)可以被正確分類的圖像,進(jìn)行一些非常細(xì)微的像素級(jí)別的擾動(dòng),即使擾動(dòng)是人眼難以察覺(jué)的,模型也將會(huì)將擾動(dòng)后的圖像錯(cuò)誤分類,這種被錯(cuò)誤分類的樣本被稱作對(duì)抗樣本。對(duì)抗樣本的存在,說(shuō)明現(xiàn)有的模型對(duì)某些極小的擾動(dòng)非常的敏感!在計(jì)算機(jī)視覺(jué)領(lǐng)域,對(duì)抗樣本吸引的研究者的廣泛興趣。最近,對(duì)抗樣本的研究也擴(kuò)展到語(yǔ)音信號(hào)領(lǐng)域,[12]提出來(lái)一種對(duì)端到端語(yǔ)音識(shí)別模型的定向攻擊方法:給定一段語(yǔ)音,產(chǎn)生一段人耳不可感知的擾動(dòng),擾動(dòng)后的語(yǔ)音可以被識(shí)別成任何目標(biāo)文本。同樣地,在KWS系統(tǒng)中,我們很自然地把誤喚醒(Falsealarmed,F(xiàn)A)或誤拒絕(Falserejected,F(xiàn)R)的樣本當(dāng)成對(duì)抗樣本!當(dāng)系統(tǒng)遇到與關(guān)鍵字完全無(wú)關(guān)的樣例時(shí),仍然會(huì)存在錯(cuò)誤喚醒的現(xiàn)象,或者當(dāng)輸入明顯是關(guān)鍵字時(shí),系統(tǒng)會(huì)錯(cuò)誤地拒絕。由于復(fù)雜的聲學(xué)環(huán)境和許多其他不可預(yù)測(cè)的原因,觸發(fā)FA和FR的樣例往往是不可重現(xiàn)的。正是因?yàn)槿绱?,這種不可重現(xiàn)的屬性使得進(jìn)一步提高KWS性能變得很困難。
之前基于對(duì)抗樣本改進(jìn)模型魯棒性的工作,主要是為了提高模型對(duì)對(duì)抗樣本的魯棒性。而在我們本文的工作中,我們的目的是通過(guò)使用基于對(duì)抗樣本地?cái)?shù)據(jù)擴(kuò)充來(lái)提高模型對(duì)于正常的帶噪聲數(shù)據(jù)的魯棒性,而不僅是針對(duì)對(duì)抗樣本。在訓(xùn)練階段,快速符號(hào)梯度法(FastGradientSignMethod,F(xiàn)GSM)[11]被用來(lái)動(dòng)態(tài)的生成對(duì)抗樣本,與其他方法相比,F(xiàn)GSM方法比較高效。對(duì)于每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù),對(duì)抗樣本生成之后,模型參數(shù)將會(huì)使用對(duì)抗樣本進(jìn)行更新。另外,在ASR任務(wù)中,我們還將提出的基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法和T/S學(xué)習(xí)結(jié)合,發(fā)現(xiàn)兩個(gè)方法帶來(lái)的增益可以相互疊加。
本文章節(jié)安排如下:第2章詳細(xì)介紹FGSM生成對(duì)抗樣本的方法;第3章介紹對(duì)抗樣本在聲學(xué)模型訓(xùn)練中的應(yīng)用;第4章將會(huì)給出實(shí)驗(yàn)設(shè)置以及實(shí)驗(yàn)結(jié)果;第5章對(duì)全文進(jìn)行總結(jié)。
3.對(duì)抗樣本
對(duì)抗樣本定義
對(duì)抗樣本的目的是成功地破壞一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,即使一個(gè)非常好的模型,也特別容易遭受對(duì)抗樣本的攻擊,即模型的預(yù)測(cè)十分容易被輸入端的人為擾動(dòng)干擾,即使擾動(dòng)是人耳無(wú)法察覺(jué)的。這種人為擾動(dòng),稱為對(duì)抗擾動(dòng),而這種被對(duì)抗擾動(dòng)干擾的樣本,稱為對(duì)抗樣本。對(duì)抗樣本的存在,說(shuō)明網(wǎng)絡(luò)的輸出關(guān)于輸入存在不平滑的問(wèn)題,即輸入端的極小變化可以造成輸出端的一個(gè)巨大的跳躍。
一般來(lái)說(shuō),一個(gè)機(jī)器學(xué)習(xí)模型,比如神經(jīng)網(wǎng)絡(luò),可以表示為一個(gè)參數(shù)化的函數(shù),其中,是輸入特征向量, 是模型的參數(shù)。給定一個(gè)輸入樣本 ,及其對(duì)應(yīng)的標(biāo)簽 ,一個(gè)訓(xùn)練好的模型 將用來(lái)預(yù)測(cè)樣本的標(biāo)簽。而對(duì)抗樣本,可以通過(guò)下面的公式來(lái)構(gòu)建:
(1)
并且有
其中
被稱作為對(duì)抗擾動(dòng)。對(duì)于一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),一般來(lái)說(shuō),普通的隨機(jī)擾動(dòng)將不會(huì)影響網(wǎng)絡(luò)的輸出,因此,對(duì)抗樣本產(chǎn)生的關(guān)鍵是對(duì)抗擾動(dòng)的設(shè)計(jì)和生成,一旦可以生成對(duì)抗擾動(dòng),對(duì)抗樣本就可以作為訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從而提高模型的的平滑性和魯棒性。
對(duì)抗樣本的生成
在本文中,我們使用快速符號(hào)梯度法(FGSM)來(lái)進(jìn)行對(duì)抗樣本的生成。FGSM利用當(dāng)前的模型參數(shù)和訓(xùn)練數(shù)據(jù),生成公式(1)中的對(duì)抗擾動(dòng)。給定模型參數(shù) ,輸入 和輸出,模型在訓(xùn)練階段使用訓(xùn)練數(shù)據(jù)來(lái)最小化損失函數(shù),在一般的分類任務(wù)中,損失函數(shù)一般采用交叉熵,也是本文中使用的損失函數(shù)。當(dāng)網(wǎng)絡(luò)參數(shù)已經(jīng)被優(yōu)化,網(wǎng)絡(luò)收斂之后,為了在輸入空間上尋找一個(gè)能夠使網(wǎng)絡(luò)損失函數(shù)增大的擾動(dòng)方向,即能夠使網(wǎng)絡(luò)對(duì)輸入進(jìn)行錯(cuò)誤分類的方向,F(xiàn)GSM提出使用下面公式來(lái)進(jìn)行擾動(dòng)的計(jì)算:
其中, 是一個(gè)極小的常量,注意到,F(xiàn)GSM使用了一個(gè)符號(hào)函數(shù)來(lái)獲取的損失函數(shù)關(guān)于輸入的梯度的符號(hào),而并非直接使用梯度的值,目的是為了滿足擾動(dòng)的最大范數(shù)約束,并且容易控制擾動(dòng)的幅度,從而滿足公式(3)的約束。我們?cè)诤竺娴膶?shí)驗(yàn)中證明,一個(gè)小的 便足夠產(chǎn)生增強(qiáng)模型魯棒性的對(duì)抗樣本。
4.使用對(duì)抗樣本進(jìn)行聲學(xué)模型訓(xùn)練
與其他的基于數(shù)據(jù)仿真的數(shù)據(jù)擴(kuò)充的方法不同,例如添加噪聲和混響的方法,基于對(duì)抗的樣本的數(shù)據(jù)擴(kuò)充方法是一種模型和數(shù)據(jù)相關(guān)的方法,并且明確的將對(duì)抗樣本和損失函數(shù)關(guān)聯(lián)起來(lái),明確產(chǎn)生了能使損失函數(shù)的數(shù)值增大的樣本,因此,這種方法更為高效。一旦生成對(duì)抗樣本,這些對(duì)抗樣本將用來(lái)訓(xùn)練網(wǎng)絡(luò),進(jìn)而增強(qiáng)網(wǎng)絡(luò)對(duì)干擾的魯棒性。在本工作中,F(xiàn)GSM方法用來(lái)為每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。算法1給出了在聲學(xué)模型訓(xùn)練過(guò)程中用到的流程。
算法1:使用對(duì)抗樣本訓(xùn)練聲學(xué)模型
在聲學(xué)模型訓(xùn)練中,輸入特征 一般為MFCC特征,目標(biāo) 為綁定的隱馬爾可夫模型的狀態(tài)。在上述的算法1,每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)中,我們采用4步操作,來(lái)進(jìn)行模型的訓(xùn)練:(1)使用原始的訓(xùn)練數(shù)據(jù)訓(xùn)練模型參數(shù),然后將模型參數(shù)固定,產(chǎn)生當(dāng)前數(shù)據(jù)的對(duì)抗擾動(dòng) 。因?yàn)镕GSM使用了符號(hào)函數(shù),因此,對(duì)抗擾動(dòng)每一維上的數(shù)值為 或者;(2)使用生成的對(duì)抗擾動(dòng)來(lái)生成對(duì)抗樣本;(3)將對(duì)抗樣本和原始數(shù)據(jù)的目標(biāo)進(jìn)行組合,產(chǎn)生新的訓(xùn)練數(shù)據(jù);(4)使用新生成的訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,更新模型參數(shù)。在這里,我們要強(qiáng)調(diào)的是,我們將對(duì)抗樣本和原始的標(biāo)簽進(jìn)行了組合,因?yàn)樵谖覀兊膶?shí)驗(yàn)里,擾動(dòng)非常小,我們希望神經(jīng)網(wǎng)絡(luò)可以輸出和原始的樣本相同的預(yù)測(cè)類別。通過(guò)FGSM生成的對(duì)抗樣本,能夠使模型損失函數(shù)明顯上升,說(shuō)明這些樣本是當(dāng)前模型的“盲點(diǎn)”,模型無(wú)法成功覆蓋這些區(qū)域,導(dǎo)致模型產(chǎn)生了不可預(yù)知的錯(cuò)誤。
5.實(shí)驗(yàn)
數(shù)據(jù)庫(kù)和系統(tǒng)描述
Aurora-4數(shù)據(jù)庫(kù)
Aurora-4數(shù)據(jù)庫(kù)是一個(gè)基于華爾街日?qǐng)?bào)(WallStreetJournal,WSJ)的噪聲魯棒的中詞匯量的連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),即以WSJ0數(shù)據(jù)庫(kù)為基礎(chǔ)通過(guò)加噪產(chǎn)生的。Aurora-4中,兩種麥克風(fēng)被用來(lái)進(jìn)行錄音:主要麥克風(fēng)和次要麥克風(fēng)。次要麥克風(fēng)中包含多種不同的型號(hào),兩種麥克風(fēng)同時(shí)用來(lái)進(jìn)行7138句訓(xùn)練數(shù)據(jù)的錄制。Aurora-4的訓(xùn)練數(shù)據(jù)集合可分為兩個(gè):干凈訓(xùn)練數(shù)據(jù)和多場(chǎng)景帶噪聲訓(xùn)練數(shù)據(jù)。干凈訓(xùn)練數(shù)據(jù)全部使用主麥克風(fēng)錄制,不含有任何噪聲。多場(chǎng)景訓(xùn)練數(shù)據(jù)也包括7138句話,包含主麥克風(fēng)和次麥克風(fēng)錄制的數(shù)據(jù),同時(shí)也包含干凈的和帶噪聲的數(shù)據(jù),因此,多場(chǎng)景訓(xùn)練數(shù)據(jù)覆蓋了更多的噪聲和信道(麥克風(fēng))失真。Aurora-4的測(cè)試集合也包含4種:干凈測(cè)試集(A)、帶噪測(cè)試集(B)、信道失真測(cè)試集(C)以及噪聲和信道失真測(cè)試集(D)。A集合只包含330句主麥克風(fēng)錄制的干凈語(yǔ)音;B集合包含6個(gè)A集合的帶噪數(shù)據(jù)的副本,總計(jì)330*6=1980句;C集合只包含330句次麥克風(fēng)錄制的干凈語(yǔ)音;D集合包含6個(gè)C集合的帶噪數(shù)據(jù)的副本。
喚醒數(shù)據(jù)庫(kù)
我們使用出門(mén)問(wèn)問(wèn)(Mobvoi)智能音箱TicKasaFox2收集的喚醒數(shù)據(jù)驗(yàn)證我們的方法。喚醒詞由三個(gè)普通話音節(jié)組成(“嗨小問(wèn)”)。這一數(shù)據(jù)集涵蓋了523個(gè)不同的說(shuō)話者,包括303名兒童和220名成年人。此外,每個(gè)說(shuō)話人的集合包括正樣例(帶喚醒詞)和負(fù)樣例,每個(gè)說(shuō)話人的集合包括在不同的麥克風(fēng)的距離和不同的信噪比下錄制的數(shù)據(jù),其中噪音來(lái)自典型的家庭環(huán)境??偣灿?0K正樣例(約10小時(shí))和54K負(fù)樣例(約57小時(shí))用作為訓(xùn)練數(shù)據(jù)。校驗(yàn)集包括2.3K正樣例(約1.1h)和5.5K負(fù)樣例(約6.2h),而測(cè)試集包括2K正樣例(約1h)和5.9K的負(fù)樣例(約6h)。
系統(tǒng)描述
語(yǔ)音識(shí)別工作中,我們采用了CNN作為聲學(xué)模型,CNN模型在多個(gè)工作中表現(xiàn)出來(lái)了對(duì)噪聲較強(qiáng)的魯棒性,在本文中,我們采用了和[15]中一樣的模型結(jié)構(gòu)。對(duì)于Aurora-4的實(shí)驗(yàn),40維的FBANK特征,已經(jīng)11幀的上下文信息被用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。對(duì)于CHiME-4的實(shí)驗(yàn),我們使用Kaldi的fMLLR特征作為網(wǎng)絡(luò)訓(xùn)練的特征,所有的特征提取以及高斯混合模型聲學(xué)模型的訓(xùn)練,都是基于Kaldi[13]完成的,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)對(duì)抗樣本的實(shí)現(xiàn),則是基于Tensorflow[14]。在兩個(gè)實(shí)驗(yàn)中,開(kāi)發(fā)集合用來(lái)確定最優(yōu)模型的參數(shù),包括對(duì)抗樣本的對(duì)抗擾動(dòng)權(quán)重 ,之后最優(yōu)的模型直接應(yīng)用于測(cè)試集合。
在關(guān)鍵詞檢出工作中,我們遵循了[5]中使用的基于注意力機(jī)制的端到端模型結(jié)構(gòu)。編碼器采用1層GRU。由于與正樣例相比,負(fù)樣例的持續(xù)時(shí)間較長(zhǎng),因此我們?cè)谟?xùn)練中對(duì)正樣例進(jìn)行了分割,分割的長(zhǎng)度為200幀(約2s)。在測(cè)試過(guò)程中,使用一個(gè)幀長(zhǎng)200的窗口,幀移為每次1幀。如果一個(gè)樣例中至少有一幀移動(dòng)后的得分大于預(yù)先設(shè)置的閾值,則觸發(fā)KWS系統(tǒng)。我們的實(shí)驗(yàn)是基于TensorFlow進(jìn)行的,采用ADAM作為優(yōu)化器。
實(shí)驗(yàn)結(jié)果
Aurora-4語(yǔ)音識(shí)別實(shí)驗(yàn)
圖1Aurora-4數(shù)據(jù)庫(kù)開(kāi)發(fā)集上的WER(%)和對(duì)抗權(quán)重 ∈的關(guān)系
圖1展示了Aurora-4數(shù)據(jù)庫(kù)開(kāi)發(fā)集合上詞錯(cuò)誤率(WordErrorRate,WER)和對(duì)抗權(quán)重的關(guān)系。基于圖1的結(jié)果,當(dāng)時(shí),在開(kāi)發(fā)集合上得到了最優(yōu)的效果。因此,我們將詞模型使用測(cè)試集合進(jìn)行測(cè)試。表1給出了在Aurora-4的4個(gè)測(cè)試集合上的結(jié)果,其中,基線模型是使用多場(chǎng)景訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的模型,對(duì)抗樣本模型是使用算法1的流程進(jìn)行訓(xùn)練的,從表1中我們可以看出,使用對(duì)抗樣本之后,我們?nèi)〉昧似骄?4.1%的WER的相對(duì)下降,在3個(gè)具有失真的測(cè)試集上,對(duì)抗樣本模型都取得了提升,特別是在集合D上,我們提出的方法獲得了18.6%的WER的相對(duì)提升。在干凈測(cè)試集合A上雖然識(shí)別效果變差,主要原因是訓(xùn)練數(shù)據(jù)中引入了過(guò)多的帶噪數(shù)據(jù),這個(gè)問(wèn)題可以通過(guò)添加更多的干凈數(shù)據(jù)來(lái)彌補(bǔ)。
表1Aurora-4測(cè)試集合上基線模型和使用對(duì)抗樣本模型的WER(%)的對(duì)比
此外,本文提出的數(shù)據(jù)擴(kuò)充的方法,可以與其它的學(xué)習(xí)和訓(xùn)練策略進(jìn)行結(jié)合,為了驗(yàn)證這一點(diǎn),我們將其與T/S學(xué)習(xí)進(jìn)行結(jié)合,實(shí)驗(yàn)結(jié)果證明,兩中策略所帶來(lái)的收益是可以疊加的。Aurora-4數(shù)據(jù)庫(kù)里包含成對(duì)的干凈和帶噪語(yǔ)音,因此,我們可以利用干凈的模型訓(xùn)練T模型,帶噪數(shù)據(jù)用來(lái)訓(xùn)練S模型,當(dāng)S模型進(jìn)行訓(xùn)練的時(shí)候,使用下面的損失函數(shù)進(jìn)行訓(xùn)練:
(5)
其中, ,CE為交叉熵?fù)p失函數(shù), 為S模型的參數(shù), 為帶噪數(shù)據(jù)的特征, 為原始的監(jiān)督信息, 為教師模型的輸出的概率分布,它是通過(guò)將干凈語(yǔ)音 輸入到T模型得到的概率分布:
其中, 為T(mén)模型訓(xùn)練好的參數(shù)。表2給出了我們使用T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合的實(shí)驗(yàn)結(jié)果。從表2中可以看出,使用T/S學(xué)習(xí)可以明顯降低WER,將T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合之后,我們可以獲得8.50%的最好的識(shí)別結(jié)果,同時(shí),為了證明增益是來(lái)自對(duì)抗樣本而不是因?yàn)閿?shù)據(jù)量的增加,我們將對(duì)抗擾動(dòng)換成了隨機(jī)擾動(dòng),我們發(fā)現(xiàn)隨機(jī)擾動(dòng)只帶來(lái)了很小的增益,從而證明了對(duì)抗樣本的有效性。更多細(xì)節(jié)可以參考文章[16]。
表2Aurora-4測(cè)試集合上對(duì)抗樣本和T/S結(jié)合的實(shí)驗(yàn)結(jié)果
喚醒實(shí)驗(yàn)
為了驗(yàn)證FGSM方法對(duì)模型產(chǎn)生的影響,我們?cè)跍y(cè)試集上使用FGSM生成了相反的樣例,正樣例擾動(dòng)(即Pos-FGSM)表示擾動(dòng)只添加到關(guān)鍵字部分。負(fù)樣例擾動(dòng)(即Neg-FGSM)則將擾動(dòng)直接被添加到整個(gè)樣例。當(dāng)我們測(cè)試得到的結(jié)果是KWS模型面對(duì)對(duì)抗樣本時(shí),F(xiàn)RR急劇增加。如圖3,我們分析了的注意力層的權(quán)重在添加對(duì)抗擾動(dòng)之前和之后的變化??梢钥闯觯P偷臋?quán)重發(fā)生了較大的偏移,即注意力機(jī)制被破壞,模型所“注意”的關(guān)鍵詞位置錯(cuò)誤,從而導(dǎo)致很容易輸出錯(cuò)誤的結(jié)果。
圖3(1)正樣例注意力權(quán)重層圖3(2)負(fù)樣例注意力權(quán)重層
這一觀察結(jié)果表明,目前的模型是對(duì)對(duì)抗性擾動(dòng)的樣例非常敏感的問(wèn)題確實(shí)存在。為了提高模型的魯棒性,我們使用對(duì)抗性樣本進(jìn)一步擴(kuò)展了訓(xùn)練數(shù)據(jù)。具體來(lái)說(shuō),我們使用對(duì)抗樣例對(duì)模型進(jìn)行了重新訓(xùn)練。在訓(xùn)練階段,為每一步中的訓(xùn)練數(shù)據(jù)生成對(duì)抗性樣例(包括正樣例和負(fù)樣例)。然后這些樣例被用來(lái)再次訓(xùn)練一個(gè)已經(jīng)訓(xùn)練良好的KWS模型。在具體實(shí)驗(yàn)中,我們也一樣嘗試了不同的訓(xùn)練策略,包括只使用正樣例對(duì)抗樣本、只使用負(fù)樣例對(duì)抗樣本和使用正負(fù)樣例對(duì)抗樣本,作為對(duì)照我們還設(shè)置了隨機(jī)擾動(dòng)樣本。
表4一小時(shí)誤喚醒一次時(shí)的誤拒絕率
圖4不同訓(xùn)練策略的ROC曲線
圖4為各種方法的ROC曲線結(jié)果,這里超參數(shù) 。Pos-FGSM和Neg-FGSM分別表示使用正負(fù)對(duì)抗樣例擴(kuò)充,而ALL-FGSM表示正負(fù)樣例都擴(kuò)充。Random表示對(duì)所有訓(xùn)練數(shù)據(jù)加上隨機(jī)符號(hào)擾動(dòng),而非使用對(duì)抗擾動(dòng)。表4表示測(cè)試集中FAR為1.0時(shí)的FRR的大小。從中我們看到基于Pos-FGSM和Neg-FGSM的對(duì)抗樣例數(shù)據(jù)擴(kuò)充能顯著降低FRR,降低比例分別為45.6%和24.8%。作為比較,隨機(jī)的擾動(dòng)擴(kuò)充樣例也能稍微提高模型性能。綜上所述,使用對(duì)抗樣例擴(kuò)充訓(xùn)練數(shù)據(jù)是提高模型魯棒性的有效方法。更多細(xì)節(jié)可參考文章[17]。
6.結(jié)論
本文提出了一種基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法,并將其應(yīng)用在魯棒ASR和KWS任務(wù)中。在模型訓(xùn)練過(guò)程種,F(xiàn)GSM方法被用來(lái)進(jìn)行對(duì)抗樣本的動(dòng)態(tài)產(chǎn)生。在Aurora-4魯棒語(yǔ)音識(shí)別任務(wù)上,我們的提出的方法可以獲得14.1%的WER的相對(duì)降低。同時(shí),實(shí)驗(yàn)結(jié)果表明,將本文和其它學(xué)習(xí)方式結(jié)合,例如T/S學(xué)習(xí),可以獲得更進(jìn)一步的提高,在Aurora-4任務(wù)上,通過(guò)和T/S結(jié)合,我們獲得了23%的WER相對(duì)下降。在KWS任務(wù)中,我們針對(duì)KWS任務(wù),進(jìn)行了不同方式數(shù)據(jù)擴(kuò)充,所提出的數(shù)據(jù)擴(kuò)充方法同樣可以有效降低基于注意力機(jī)制的KWS模型的FAR和FRR。
7.參考文獻(xiàn)
標(biāo)簽:
中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
相關(guān)資訊
產(chǎn)品新聞
更多>新品發(fā)布:CD300系列總線型伺服驅(qū)動(dòng)器
2024-10-31
2024-10-31
2024-10-31
新勢(shì)能 新期待|維智B1L直線伺服驅(qū)動(dòng)器
2024-10-31
纖薄之間,化繁為簡(jiǎn)|合信全新simple系...
2024-10-29
2024-10-18
推薦專題
更多>