您現(xiàn)在的位置：中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充在魯棒語(yǔ)音識(shí)別和關(guān)鍵詞檢出中的應(yīng)用

基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充在魯棒語(yǔ)音識(shí)別和關(guān)鍵詞檢出中的應(yīng)用

時(shí)間：2019-05-15 18:01:21來(lái)源：孫思寧，王雄，謝磊

導(dǎo)語(yǔ)：?本文將對(duì)抗樣本用于語(yǔ)音識(shí)別和關(guān)鍵詞檢出中深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練過(guò)程中，以用來(lái)提高聲學(xué)模型的魯棒性。

1.摘要

本文將對(duì)抗樣本用于語(yǔ)音識(shí)別和關(guān)鍵詞檢出中深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練過(guò)程中，以用來(lái)提高聲學(xué)模型的魯棒性。在模型訓(xùn)練過(guò)程中，使用基于快速符號(hào)梯度方法來(lái)產(chǎn)生對(duì)抗樣本作為原始訓(xùn)練樣本的擴(kuò)充，與傳統(tǒng)的基于數(shù)據(jù)變換的數(shù)據(jù)擴(kuò)充方式不同，本文所提出的方法是一種模型和數(shù)據(jù)相關(guān)的方法，在模型訓(xùn)練過(guò)程中，根據(jù)模型的參數(shù)和當(dāng)前訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。在本文中，對(duì)于語(yǔ)音識(shí)別任務(wù)，我們?cè)贏urora-4數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)，我們提出的方法能夠顯著地提高模型對(duì)噪聲和信道的魯棒性，而且，我們將本文所提出的數(shù)據(jù)擴(kuò)充方式和教師/學(xué)生學(xué)習(xí)策略結(jié)合，在Aurora-4數(shù)據(jù)庫(kù)上，我們可以得到23%的相對(duì)詞錯(cuò)誤率下降。在關(guān)鍵詞檢出任務(wù)中，我們所提出的方法也明顯地降低了基于注意力機(jī)制的喚醒模型的誤喚醒率和誤拒絕率。

關(guān)鍵詞：魯棒語(yǔ)音識(shí)別，關(guān)鍵詞檢出，對(duì)抗樣本，快速符號(hào)梯度法，數(shù)據(jù)擴(kuò)充

2.前言

近年來(lái)，隨著深度學(xué)習(xí)（DeepLearning，DL）的興起以及深度神經(jīng)網(wǎng)絡(luò)（DeepNeuralNetworks，DNNs）在聲學(xué)模型上的成功應(yīng)用，自動(dòng)語(yǔ)音識(shí)別（AutomaticSpeechRecognition，ASR）[1][2]和關(guān)鍵詞檢出（KeywordSpotting，KWS）[3][4]得到了快速發(fā)展。各種網(wǎng)絡(luò)結(jié)構(gòu)，例如CNN，RNN和LSTM等，都成功應(yīng)用在聲學(xué)建模中?；贒NNs的聲學(xué)模型在實(shí)際應(yīng)用中，表現(xiàn)出了良好的噪聲魯棒性，因?yàn)槠涮厥饨Y(jié)構(gòu)以及多層非線性變換，讓其具有較強(qiáng)的建模能力。即便如此，基于DNNs的ASR和KWS系統(tǒng)，仍然還會(huì)受到噪聲、混響以及信道等因素的影響[6]，造成識(shí)別性能地下降。為了解決這些問(wèn)題，大量的工作在不同的方面被提出來(lái)，比如數(shù)據(jù)擴(kuò)充[7]、單/多通道語(yǔ)音增強(qiáng)、特征變換，還有一些有效的學(xué)習(xí)策略，比如教師/學(xué)生（Teacher/Student，T/S）學(xué)習(xí)[8]、對(duì)抗訓(xùn)練[9]等。在本文中，我們主要集中在數(shù)據(jù)擴(kuò)充的方法，來(lái)提高ASR和KWS系統(tǒng)的魯棒性。

當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間存在分布的不匹配時(shí)，聲學(xué)模型的性能將會(huì)大打折扣。為了彌補(bǔ)這種不匹配的問(wèn)題，數(shù)據(jù)擴(kuò)充是一個(gè)非常有效而且被廣泛采用的方法，數(shù)據(jù)擴(kuò)充的目的是通過(guò)對(duì)干凈數(shù)據(jù)添加噪聲、混響等干擾，產(chǎn)生干凈數(shù)據(jù)的帶噪副本，模擬真實(shí)的帶噪數(shù)據(jù)，提高訓(xùn)練數(shù)據(jù)的多樣性，然后將其用于模型訓(xùn)練。這種訓(xùn)練方式，被稱作多場(chǎng)景訓(xùn)練。此外，T/S學(xué)習(xí)也是一種常用的提高模型魯棒性的方法，它可以在有監(jiān)督或者無(wú)監(jiān)督的場(chǎng)景下進(jìn)行使用，T/S學(xué)習(xí)需要并行的數(shù)據(jù)分別訓(xùn)練T模型和S模型。

為了提高模型對(duì)于噪聲的魯棒性，本文提出來(lái)一種使用對(duì)抗樣本來(lái)進(jìn)行數(shù)據(jù)擴(kuò)充的方法。對(duì)抗樣本（AdversarialExamples）的概念首先是在[10]中計(jì)算機(jī)視覺(jué)任務(wù)上被提出來(lái)，研究者們發(fā)現(xiàn)，對(duì)于一個(gè)已經(jīng)被完全訓(xùn)練好的圖像識(shí)別網(wǎng)絡(luò)，如果對(duì)一個(gè)可以被正確分類的圖像，進(jìn)行一些非常細(xì)微的像素級(jí)別的擾動(dòng)，即使擾動(dòng)是人眼難以察覺(jué)的，模型也將會(huì)將擾動(dòng)后的圖像錯(cuò)誤分類，這種被錯(cuò)誤分類的樣本被稱作對(duì)抗樣本。對(duì)抗樣本的存在，說(shuō)明現(xiàn)有的模型對(duì)某些極小的擾動(dòng)非常的敏感！在計(jì)算機(jī)視覺(jué)領(lǐng)域，對(duì)抗樣本吸引的研究者的廣泛興趣。最近，對(duì)抗樣本的研究也擴(kuò)展到語(yǔ)音信號(hào)領(lǐng)域，[12]提出來(lái)一種對(duì)端到端語(yǔ)音識(shí)別模型的定向攻擊方法：給定一段語(yǔ)音，產(chǎn)生一段人耳不可感知的擾動(dòng)，擾動(dòng)后的語(yǔ)音可以被識(shí)別成任何目標(biāo)文本。同樣地，在KWS系統(tǒng)中，我們很自然地把誤喚醒（Falsealarmed，F(xiàn)A）或誤拒絕（Falserejected，F(xiàn)R）的樣本當(dāng)成對(duì)抗樣本！當(dāng)系統(tǒng)遇到與關(guān)鍵字完全無(wú)關(guān)的樣例時(shí)，仍然會(huì)存在錯(cuò)誤喚醒的現(xiàn)象，或者當(dāng)輸入明顯是關(guān)鍵字時(shí)，系統(tǒng)會(huì)錯(cuò)誤地拒絕。由于復(fù)雜的聲學(xué)環(huán)境和許多其他不可預(yù)測(cè)的原因，觸發(fā)FA和FR的樣例往往是不可重現(xiàn)的。正是因?yàn)槿绱?，這種不可重現(xiàn)的屬性使得進(jìn)一步提高KWS性能變得很困難。

之前基于對(duì)抗樣本改進(jìn)模型魯棒性的工作，主要是為了提高模型對(duì)對(duì)抗樣本的魯棒性。而在我們本文的工作中，我們的目的是通過(guò)使用基于對(duì)抗樣本地?cái)?shù)據(jù)擴(kuò)充來(lái)提高模型對(duì)于正常的帶噪聲數(shù)據(jù)的魯棒性，而不僅是針對(duì)對(duì)抗樣本。在訓(xùn)練階段，快速符號(hào)梯度法（FastGradientSignMethod，F(xiàn)GSM）[11]被用來(lái)動(dòng)態(tài)的生成對(duì)抗樣本，與其他方法相比，F(xiàn)GSM方法比較高效。對(duì)于每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)，對(duì)抗樣本生成之后，模型參數(shù)將會(huì)使用對(duì)抗樣本進(jìn)行更新。另外，在ASR任務(wù)中，我們還將提出的基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法和T/S學(xué)習(xí)結(jié)合，發(fā)現(xiàn)兩個(gè)方法帶來(lái)的增益可以相互疊加。

本文章節(jié)安排如下：第2章詳細(xì)介紹FGSM生成對(duì)抗樣本的方法；第3章介紹對(duì)抗樣本在聲學(xué)模型訓(xùn)練中的應(yīng)用；第4章將會(huì)給出實(shí)驗(yàn)設(shè)置以及實(shí)驗(yàn)結(jié)果；第5章對(duì)全文進(jìn)行總結(jié)。

3.對(duì)抗樣本

對(duì)抗樣本定義

對(duì)抗樣本的目的是成功地破壞一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型，即使一個(gè)非常好的模型，也特別容易遭受對(duì)抗樣本的攻擊，即模型的預(yù)測(cè)十分容易被輸入端的人為擾動(dòng)干擾，即使擾動(dòng)是人耳無(wú)法察覺(jué)的。這種人為擾動(dòng)，稱為對(duì)抗擾動(dòng)，而這種被對(duì)抗擾動(dòng)干擾的樣本，稱為對(duì)抗樣本。對(duì)抗樣本的存在，說(shuō)明網(wǎng)絡(luò)的輸出關(guān)于輸入存在不平滑的問(wèn)題，即輸入端的極小變化可以造成輸出端的一個(gè)巨大的跳躍。

一般來(lái)說(shuō)，一個(gè)機(jī)器學(xué)習(xí)模型，比如神經(jīng)網(wǎng)絡(luò)，可以表示為一個(gè)參數(shù)化的函數(shù) 智能系統(tǒng)孫思寧_對(duì)抗樣本2622.png ，其中，智能系統(tǒng)孫思寧_對(duì)抗樣本2627.png 是輸入特征向量，智能系統(tǒng)孫思寧_對(duì)抗樣本2636.png 是模型的參數(shù)。給定一個(gè)輸入樣本智能系統(tǒng)孫思寧_對(duì)抗樣本2652.png ，及其對(duì)應(yīng)的標(biāo)簽智能系統(tǒng)孫思寧_對(duì)抗樣本2661.png ，一個(gè)訓(xùn)練好的模型智能系統(tǒng)孫思寧_對(duì)抗樣本2671.png 將用來(lái)預(yù)測(cè)樣本的標(biāo)簽。而對(duì)抗樣本，可以通過(guò)下面的公式來(lái)構(gòu)建：

智能系統(tǒng)孫思寧_對(duì)抗樣本2703.png (1)

并且有

智能系統(tǒng)孫思寧_對(duì)抗樣本2736.png

其中

智能系統(tǒng)孫思寧_對(duì)抗樣本2742.png

智能系統(tǒng)孫思寧_對(duì)抗樣本2744.png 被稱作為對(duì)抗擾動(dòng)。對(duì)于一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)，一般來(lái)說(shuō)，普通的隨機(jī)擾動(dòng)將不會(huì)影響網(wǎng)絡(luò)的輸出，因此，對(duì)抗樣本產(chǎn)生的關(guān)鍵是對(duì)抗擾動(dòng)的設(shè)計(jì)和生成，一旦可以生成對(duì)抗擾動(dòng)，對(duì)抗樣本就可以作為訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行網(wǎng)絡(luò)訓(xùn)練，從而提高模型的的平滑性和魯棒性。

對(duì)抗樣本的生成

在本文中，我們使用快速符號(hào)梯度法（FGSM）來(lái)進(jìn)行對(duì)抗樣本的生成。FGSM利用當(dāng)前的模型參數(shù)和訓(xùn)練數(shù)據(jù)，生成公式（1）中的對(duì)抗擾動(dòng)。給定模型參數(shù) 智能系統(tǒng)孫思寧_對(duì)抗樣本2946.png ，輸入智能系統(tǒng)孫思寧_對(duì)抗樣本2950.png 和輸出智能系統(tǒng)孫思寧_對(duì)抗樣本2954.png ,模型在訓(xùn)練階段使用訓(xùn)練數(shù)據(jù)來(lái)最小化損失函數(shù) 智能系統(tǒng)孫思寧_對(duì)抗樣本2977.png ，在一般的分類任務(wù)中，損失函數(shù)一般采用交叉熵，也是本文中使用的損失函數(shù)。當(dāng)網(wǎng)絡(luò)參數(shù)已經(jīng)被優(yōu)化，網(wǎng)絡(luò)收斂之后，為了在輸入空間上尋找一個(gè)能夠使網(wǎng)絡(luò)損失函數(shù)增大的擾動(dòng)方向，即能夠使網(wǎng)絡(luò)對(duì)輸入進(jìn)行錯(cuò)誤分類的方向，F(xiàn)GSM提出使用下面公式來(lái)進(jìn)行擾動(dòng)的計(jì)算：

智能系統(tǒng)孫思寧_對(duì)抗樣本3102.png

其中，智能系統(tǒng)孫思寧_對(duì)抗樣本3108.png 是一個(gè)極小的常量，注意到，F(xiàn)GSM使用了一個(gè)符號(hào)函數(shù)來(lái)獲取的損失函數(shù)關(guān)于輸入的梯度的符號(hào)，而并非直接使用梯度的值，目的是為了滿足擾動(dòng)的最大范數(shù)約束，并且容易控制擾動(dòng)的幅度，從而滿足公式（3）的約束。我們?cè)诤竺娴膶?shí)驗(yàn)中證明，一個(gè)小的智能系統(tǒng)孫思寧_對(duì)抗樣本3224.png 便足夠產(chǎn)生增強(qiáng)模型魯棒性的對(duì)抗樣本。

4.使用對(duì)抗樣本進(jìn)行聲學(xué)模型訓(xùn)練

與其他的基于數(shù)據(jù)仿真的數(shù)據(jù)擴(kuò)充的方法不同，例如添加噪聲和混響的方法，基于對(duì)抗的樣本的數(shù)據(jù)擴(kuò)充方法是一種模型和數(shù)據(jù)相關(guān)的方法，并且明確的將對(duì)抗樣本和損失函數(shù)關(guān)聯(lián)起來(lái)，明確產(chǎn)生了能使損失函數(shù)的數(shù)值增大的樣本，因此，這種方法更為高效。一旦生成對(duì)抗樣本，這些對(duì)抗樣本將用來(lái)訓(xùn)練網(wǎng)絡(luò)，進(jìn)而增強(qiáng)網(wǎng)絡(luò)對(duì)干擾的魯棒性。在本工作中，F(xiàn)GSM方法用來(lái)為每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。算法1給出了在聲學(xué)模型訓(xùn)練過(guò)程中用到的流程。

算法1：使用對(duì)抗樣本訓(xùn)練聲學(xué)模型

1.1.jpg

在聲學(xué)模型訓(xùn)練中，輸入特征智能系統(tǒng)孫思寧_對(duì)抗樣本3695.png 一般為MFCC特征，目標(biāo) 智能系統(tǒng)孫思寧_對(duì)抗樣本3708.png 為綁定的隱馬爾可夫模型的狀態(tài)。在上述的算法1，每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)中，我們采用4步操作，來(lái)進(jìn)行模型的訓(xùn)練：（1）使用原始的訓(xùn)練數(shù)據(jù)訓(xùn)練模型參數(shù)，然后將模型參數(shù)固定，產(chǎn)生當(dāng)前數(shù)據(jù)的對(duì)抗擾動(dòng) 智能系統(tǒng)孫思寧_對(duì)抗樣本3810.png 。因?yàn)镕GSM使用了符號(hào)函數(shù)，因此，對(duì)抗擾動(dòng)每一維上的數(shù)值為智能系統(tǒng)孫思寧_對(duì)抗樣本3841.png 或者智能系統(tǒng)孫思寧_對(duì)抗樣本3844.png ；（2）使用生成的對(duì)抗擾動(dòng)來(lái)生成對(duì)抗樣本；（3）將對(duì)抗樣本和原始數(shù)據(jù)的目標(biāo)進(jìn)行組合，產(chǎn)生新的訓(xùn)練數(shù)據(jù)；（4）使用新生成的訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練，更新模型參數(shù)。在這里，我們要強(qiáng)調(diào)的是，我們將對(duì)抗樣本和原始的標(biāo)簽進(jìn)行了組合，因?yàn)樵谖覀兊膶?shí)驗(yàn)里，擾動(dòng)非常小，我們希望神經(jīng)網(wǎng)絡(luò)可以輸出和原始的樣本相同的預(yù)測(cè)類別。通過(guò)FGSM生成的對(duì)抗樣本，能夠使模型損失函數(shù)明顯上升，說(shuō)明這些樣本是當(dāng)前模型的“盲點(diǎn)”，模型無(wú)法成功覆蓋這些區(qū)域，導(dǎo)致模型產(chǎn)生了不可預(yù)知的錯(cuò)誤。

5.實(shí)驗(yàn)

數(shù)據(jù)庫(kù)和系統(tǒng)描述

Aurora-4數(shù)據(jù)庫(kù)

Aurora-4數(shù)據(jù)庫(kù)是一個(gè)基于華爾街日?qǐng)?bào)（WallStreetJournal，WSJ）的噪聲魯棒的中詞匯量的連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)，即以WSJ0數(shù)據(jù)庫(kù)為基礎(chǔ)通過(guò)加噪產(chǎn)生的。Aurora-4中，兩種麥克風(fēng)被用來(lái)進(jìn)行錄音：主要麥克風(fēng)和次要麥克風(fēng)。次要麥克風(fēng)中包含多種不同的型號(hào)，兩種麥克風(fēng)同時(shí)用來(lái)進(jìn)行7138句訓(xùn)練數(shù)據(jù)的錄制。Aurora-4的訓(xùn)練數(shù)據(jù)集合可分為兩個(gè)：干凈訓(xùn)練數(shù)據(jù)和多場(chǎng)景帶噪聲訓(xùn)練數(shù)據(jù)。干凈訓(xùn)練數(shù)據(jù)全部使用主麥克風(fēng)錄制，不含有任何噪聲。多場(chǎng)景訓(xùn)練數(shù)據(jù)也包括7138句話，包含主麥克風(fēng)和次麥克風(fēng)錄制的數(shù)據(jù)，同時(shí)也包含干凈的和帶噪聲的數(shù)據(jù)，因此，多場(chǎng)景訓(xùn)練數(shù)據(jù)覆蓋了更多的噪聲和信道（麥克風(fēng)）失真。Aurora-4的測(cè)試集合也包含4種：干凈測(cè)試集（A）、帶噪測(cè)試集（B）、信道失真測(cè)試集（C）以及噪聲和信道失真測(cè)試集（D）。A集合只包含330句主麥克風(fēng)錄制的干凈語(yǔ)音；B集合包含6個(gè)A集合的帶噪數(shù)據(jù)的副本，總計(jì)330*6=1980句；C集合只包含330句次麥克風(fēng)錄制的干凈語(yǔ)音；D集合包含6個(gè)C集合的帶噪數(shù)據(jù)的副本。

喚醒數(shù)據(jù)庫(kù)

我們使用出門(mén)問(wèn)問(wèn)（Mobvoi）智能音箱TicKasaFox2收集的喚醒數(shù)據(jù)驗(yàn)證我們的方法。喚醒詞由三個(gè)普通話音節(jié)組成(“嗨小問(wèn)”)。這一數(shù)據(jù)集涵蓋了523個(gè)不同的說(shuō)話者，包括303名兒童和220名成年人。此外，每個(gè)說(shuō)話人的集合包括正樣例(帶喚醒詞)和負(fù)樣例，每個(gè)說(shuō)話人的集合包括在不同的麥克風(fēng)的距離和不同的信噪比下錄制的數(shù)據(jù)，其中噪音來(lái)自典型的家庭環(huán)境?？偣灿?0K正樣例(約10小時(shí))和54K負(fù)樣例(約57小時(shí))用作為訓(xùn)練數(shù)據(jù)。校驗(yàn)集包括2.3K正樣例(約1.1h)和5.5K負(fù)樣例(約6.2h)，而測(cè)試集包括2K正樣例(約1h)和5.9K的負(fù)樣例(約6h)。

系統(tǒng)描述

語(yǔ)音識(shí)別工作中，我們采用了CNN作為聲學(xué)模型，CNN模型在多個(gè)工作中表現(xiàn)出來(lái)了對(duì)噪聲較強(qiáng)的魯棒性，在本文中，我們采用了和[15]中一樣的模型結(jié)構(gòu)。對(duì)于Aurora-4的實(shí)驗(yàn)，40維的FBANK特征，已經(jīng)11幀的上下文信息被用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。對(duì)于CHiME-4的實(shí)驗(yàn)，我們使用Kaldi的fMLLR特征作為網(wǎng)絡(luò)訓(xùn)練的特征，所有的特征提取以及高斯混合模型聲學(xué)模型的訓(xùn)練，都是基于Kaldi[13]完成的，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)對(duì)抗樣本的實(shí)現(xiàn)，則是基于Tensorflow[14]。在兩個(gè)實(shí)驗(yàn)中，開(kāi)發(fā)集合用來(lái)確定最優(yōu)模型的參數(shù)，包括對(duì)抗樣本的對(duì)抗擾動(dòng)權(quán)重智能系統(tǒng)孫思寧_對(duì)抗樣本5196.png ，之后最優(yōu)的模型直接應(yīng)用于測(cè)試集合。

在關(guān)鍵詞檢出工作中，我們遵循了[5]中使用的基于注意力機(jī)制的端到端模型結(jié)構(gòu)。編碼器采用1層GRU。由于與正樣例相比，負(fù)樣例的持續(xù)時(shí)間較長(zhǎng)，因此我們?cè)谟?xùn)練中對(duì)正樣例進(jìn)行了分割，分割的長(zhǎng)度為200幀(約2s)。在測(cè)試過(guò)程中，使用一個(gè)幀長(zhǎng)200的窗口，幀移為每次1幀。如果一個(gè)樣例中至少有一幀移動(dòng)后的得分大于預(yù)先設(shè)置的閾值，則觸發(fā)KWS系統(tǒng)。我們的實(shí)驗(yàn)是基于TensorFlow進(jìn)行的，采用ADAM作為優(yōu)化器。

實(shí)驗(yàn)結(jié)果

Aurora-4語(yǔ)音識(shí)別實(shí)驗(yàn)

智能系統(tǒng)孫思寧_對(duì)抗樣本5462.png

圖1Aurora-4數(shù)據(jù)庫(kù)開(kāi)發(fā)集上的WER（%）和對(duì)抗權(quán)重 ∈的關(guān)系

圖1展示了Aurora-4數(shù)據(jù)庫(kù)開(kāi)發(fā)集合上詞錯(cuò)誤率（WordErrorRate，WER）和對(duì)抗權(quán)重的關(guān)系。基于圖1的結(jié)果，當(dāng) 智能系統(tǒng)孫思寧_對(duì)抗樣本5587.png 時(shí)，在開(kāi)發(fā)集合上得到了最優(yōu)的效果。因此，我們將詞模型使用測(cè)試集合進(jìn)行測(cè)試。表1給出了在Aurora-4的4個(gè)測(cè)試集合上的結(jié)果，其中，基線模型是使用多場(chǎng)景訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的模型，對(duì)抗樣本模型是使用算法1的流程進(jìn)行訓(xùn)練的，從表1中我們可以看出，使用對(duì)抗樣本之后，我們?nèi)〉昧似骄?4.1%的WER的相對(duì)下降，在3個(gè)具有失真的測(cè)試集上，對(duì)抗樣本模型都取得了提升，特別是在集合D上，我們提出的方法獲得了18.6%的WER的相對(duì)提升。在干凈測(cè)試集合A上雖然識(shí)別效果變差，主要原因是訓(xùn)練數(shù)據(jù)中引入了過(guò)多的帶噪數(shù)據(jù)，這個(gè)問(wèn)題可以通過(guò)添加更多的干凈數(shù)據(jù)來(lái)彌補(bǔ)。

表1Aurora-4測(cè)試集合上基線模型和使用對(duì)抗樣本模型的WER（%）的對(duì)比

1.2.jpg

此外，本文提出的數(shù)據(jù)擴(kuò)充的方法，可以與其它的學(xué)習(xí)和訓(xùn)練策略進(jìn)行結(jié)合，為了驗(yàn)證這一點(diǎn)，我們將其與T/S學(xué)習(xí)進(jìn)行結(jié)合，實(shí)驗(yàn)結(jié)果證明，兩中策略所帶來(lái)的收益是可以疊加的。Aurora-4數(shù)據(jù)庫(kù)里包含成對(duì)的干凈和帶噪語(yǔ)音，因此，我們可以利用干凈的模型訓(xùn)練T模型，帶噪數(shù)據(jù)用來(lái)訓(xùn)練S模型，當(dāng)S模型進(jìn)行訓(xùn)練的時(shí)候，使用下面的損失函數(shù)進(jìn)行訓(xùn)練：

智能系統(tǒng)孫思寧_對(duì)抗樣本6202.png (5)

其中，智能系統(tǒng)孫思寧_對(duì)抗樣本6213.png ，CE為交叉熵?fù)p失函數(shù)，智能系統(tǒng)孫思寧_對(duì)抗樣本6226.png 為S模型的參數(shù)，智能系統(tǒng)孫思寧_對(duì)抗樣本6235.png 為帶噪數(shù)據(jù)的特征，智能系統(tǒng)孫思寧_對(duì)抗樣本6245.png 為原始的監(jiān)督信息，智能系統(tǒng)孫思寧_對(duì)抗樣本6255.png 為教師模型的輸出的概率分布，它是通過(guò)將干凈語(yǔ)音智能系統(tǒng)孫思寧_對(duì)抗樣本6279.png 輸入到T模型得到的概率分布：智能系統(tǒng)孫思寧_對(duì)抗樣本6295.png

其中，智能系統(tǒng)孫思寧_對(duì)抗樣本6300.png 為T(mén)模型訓(xùn)練好的參數(shù)。表2給出了我們使用T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合的實(shí)驗(yàn)結(jié)果。從表2中可以看出，使用T/S學(xué)習(xí)可以明顯降低WER，將T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合之后，我們可以獲得8.50%的最好的識(shí)別結(jié)果，同時(shí)，為了證明增益是來(lái)自對(duì)抗樣本而不是因?yàn)閿?shù)據(jù)量的增加，我們將對(duì)抗擾動(dòng)換成了隨機(jī)擾動(dòng)，我們發(fā)現(xiàn)隨機(jī)擾動(dòng)只帶來(lái)了很小的增益，從而證明了對(duì)抗樣本的有效性。更多細(xì)節(jié)可以參考文章[16]。

表2Aurora-4測(cè)試集合上對(duì)抗樣本和T/S結(jié)合的實(shí)驗(yàn)結(jié)果

1.3.jpg

喚醒實(shí)驗(yàn)

為了驗(yàn)證FGSM方法對(duì)模型產(chǎn)生的影響，我們?cè)跍y(cè)試集上使用FGSM生成了相反的樣例，正樣例擾動(dòng)(即Pos-FGSM)表示擾動(dòng)只添加到關(guān)鍵字部分。負(fù)樣例擾動(dòng)(即Neg-FGSM)則將擾動(dòng)直接被添加到整個(gè)樣例。當(dāng)我們測(cè)試得到的結(jié)果是KWS模型面對(duì)對(duì)抗樣本時(shí)，F(xiàn)RR急劇增加。如圖3，我們分析了的注意力層的權(quán)重在添加對(duì)抗擾動(dòng)之前和之后的變化?？梢钥闯觯Ｐ偷臋?quán)重發(fā)生了較大的偏移，即注意力機(jī)制被破壞，模型所“注意”的關(guān)鍵詞位置錯(cuò)誤，從而導(dǎo)致很容易輸出錯(cuò)誤的結(jié)果。

智能系統(tǒng)孫思寧_對(duì)抗樣本6947.png

圖3（1）正樣例注意力權(quán)重層圖3（2）負(fù)樣例注意力權(quán)重層

這一觀察結(jié)果表明，目前的模型是對(duì)對(duì)抗性擾動(dòng)的樣例非常敏感的問(wèn)題確實(shí)存在。為了提高模型的魯棒性，我們使用對(duì)抗性樣本進(jìn)一步擴(kuò)展了訓(xùn)練數(shù)據(jù)。具體來(lái)說(shuō)，我們使用對(duì)抗樣例對(duì)模型進(jìn)行了重新訓(xùn)練。在訓(xùn)練階段，為每一步中的訓(xùn)練數(shù)據(jù)生成對(duì)抗性樣例（包括正樣例和負(fù)樣例）。然后這些樣例被用來(lái)再次訓(xùn)練一個(gè)已經(jīng)訓(xùn)練良好的KWS模型。在具體實(shí)驗(yàn)中，我們也一樣嘗試了不同的訓(xùn)練策略，包括只使用正樣例對(duì)抗樣本、只使用負(fù)樣例對(duì)抗樣本和使用正負(fù)樣例對(duì)抗樣本，作為對(duì)照我們還設(shè)置了隨機(jī)擾動(dòng)樣本。

表4一小時(shí)誤喚醒一次時(shí)的誤拒絕率

智能系統(tǒng)孫思寧_對(duì)抗樣本7248.png

智能系統(tǒng)孫思寧_對(duì)抗樣本7250.png

圖4不同訓(xùn)練策略的ROC曲線

圖4為各種方法的ROC曲線結(jié)果，這里超參數(shù) 智能系統(tǒng)孫思寧_對(duì)抗樣本7290.png 。Pos-FGSM和Neg-FGSM分別表示使用正負(fù)對(duì)抗樣例擴(kuò)充，而ALL-FGSM表示正負(fù)樣例都擴(kuò)充。Random表示對(duì)所有訓(xùn)練數(shù)據(jù)加上隨機(jī)符號(hào)擾動(dòng)，而非使用對(duì)抗擾動(dòng)。表4表示測(cè)試集中FAR為1.0時(shí)的FRR的大小。從中我們看到基于Pos-FGSM和Neg-FGSM的對(duì)抗樣例數(shù)據(jù)擴(kuò)充能顯著降低FRR，降低比例分別為45.6%和24.8%。作為比較，隨機(jī)的擾動(dòng)擴(kuò)充樣例也能稍微提高模型性能。綜上所述，使用對(duì)抗樣例擴(kuò)充訓(xùn)練數(shù)據(jù)是提高模型魯棒性的有效方法。更多細(xì)節(jié)可參考文章[17]。

6.結(jié)論

本文提出了一種基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法，并將其應(yīng)用在魯棒ASR和KWS任務(wù)中。在模型訓(xùn)練過(guò)程種，F(xiàn)GSM方法被用來(lái)進(jìn)行對(duì)抗樣本的動(dòng)態(tài)產(chǎn)生。在Aurora-4魯棒語(yǔ)音識(shí)別任務(wù)上，我們的提出的方法可以獲得14.1%的WER的相對(duì)降低。同時(shí)，實(shí)驗(yàn)結(jié)果表明，將本文和其它學(xué)習(xí)方式結(jié)合，例如T/S學(xué)習(xí)，可以獲得更進(jìn)一步的提高，在Aurora-4任務(wù)上，通過(guò)和T/S結(jié)合，我們獲得了23%的WER相對(duì)下降。在KWS任務(wù)中，我們針對(duì)KWS任務(wù)，進(jìn)行了不同方式數(shù)據(jù)擴(kuò)充，所提出的數(shù)據(jù)擴(kuò)充方法同樣可以有效降低基于注意力機(jī)制的KWS模型的FAR和FRR。

7.參考文獻(xiàn)

1.4.jpg

1.5.jpg

標(biāo)簽：

分享到：

上一篇：基于非對(duì)稱均方誤差的人體姿...

下一篇：高壓變頻器維修因功率單元原...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來(lái)源：中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件，均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點(diǎn)