時間:2018-11-21 19:06:18來源:文/北京大學深圳研究生院現(xiàn)代信號與數(shù)據(jù)處理實驗室彭
基于語音的說話人認證技術(聲紋識別技術)屬于生物特征識別研究范疇,在互聯(lián)網(wǎng)/物聯(lián)網(wǎng)時代具有重要的應用價值。目前,限定條件下的說話人身份認證技術已較為成熟,在智能手機、銀行服務、門禁控制和智能客服等場景獲得了廣泛的應用。然而,作為智能控制場景中實現(xiàn)基于語音的自然人機交互的關鍵技術,短語音說話人身份認證技術目前尚不能滿足應用需求。本文將重點對短語音說話人確認技術的研究進行技術綜述。首先,概述說話人確認技術的基本概念和主流技術路線;其次,分析短語音說話人確認技術面臨的挑戰(zhàn);然后,對基于深度學習的說話人確認技術進行綜述;最后,展望了短語音說話人確認技術的發(fā)展趨勢和應用前景。
1 引言
人類之所以能夠”聞其聲而知其人”,是因為每個說話人都有不同的說話方式和用詞習慣,以及略有差異的發(fā)聲器官生理結構,這兩點導致不同說話人在聲音上各具特點,具有不同聲紋信息?;谡Z音的說話人確認是利用計算機分析和提取語音中蘊含的說話人信息來自動進行說話人身份認證的技術,是自然人機交互的重要技術之一,也是智能機器人的關鍵技術,具有重要的研究價值。
說話人確認技術目前廣泛應用于各類具有身份認證需求的領域,例如:在智能家居領域,說話人確認技術能幫助智能設備確認說話人的身份,使得智能系統(tǒng)能對于不同說話人提供定制化服務和內容;在金融領域,說話人確認技術可以用于基于網(wǎng)絡交易的遠程身份認證,進而提高金融賬戶的安全性,并降低基于互聯(lián)網(wǎng)的金融犯罪成功率;在公安司法領域,可以用于電信詐騙犯的身份偵查,從而幫助公安有效遏制并打擊犯罪。具體而言,公安人員可以利用說話人確認技術,先從電話錄音中截取目標說話人的語音數(shù)據(jù),再匹配說話人數(shù)據(jù)庫,最終鎖定犯罪嫌疑人。使用先進的說話人確認技術可以降低辦案成本,提高破案率。
說話人確認技術的研究開始于20世紀30年代,早期研究人員的工作主要集中在人耳聽辨,模板匹配等方向;隨著統(tǒng)計學和計算機科學的發(fā)展,說話人確認的工作開始轉向語音特征提取和模式匹配等方法研究;近年隨著人工智能的崛起和計算能力的提升,基于機器學習和深度學習的說話人確認技術逐漸成為主流。
本文將首先介紹說話人確認的基本概念,其次從特征提取和短語音建模兩個角度,對智能語音控制場景下的短語音說話人確認技術的發(fā)展歷程進行簡要回顧,然后分析幾類運用深度學習的短語音說話人確認技術,最后對發(fā)展趨勢做出總結與展望。
2 說話人確認技術綜述
說話人確認(SpeakerVerification)技術,如圖1所示,是確定待識別的語音是否來自其所宣稱的目標說話人[1][2],是“一對一”的判決問題。具體而言,說話人確認任務可以分為訓練,注冊,驗證三個階段。在訓練階段:利用大量的數(shù)據(jù)訓練說話人通用模型;注冊階段:采集注冊說話人的少量語音數(shù)據(jù)并通過算法獲得注冊說話人的聲紋模型;驗證階段:輸入聲稱為目標說話人的測試語音并計算對應的說話人模型,再與已經(jīng)注冊的目標說話人模型進行匹配,最終判定其身份是否為已注冊的目標說話人。
圖1說話人確認概念示意圖
2.1文本相關和文本無關
根據(jù)說話人確認技術對語音的文本信息是否予以限制,可以將說話人確認技術分為文本無關的(text-independent)和文本相關的(text-dependent)。
文本無關的說話人確認技術:訓練模型時不限定所采用語音數(shù)據(jù)的文本信息,且訓練語音和測試語音的文本內容不要求一致,即說話人可以隨意說任意語句。
文本相關的說話人確認技術:模型訓練時所采用語音數(shù)據(jù)的文本內容預先固定在某一個特定的范圍內,并要求訓練語音和測試語音的文本內容保持一致。
2.2說話人確認技術性能評測
衡量說話人確認技術性能的兩個基本指標是:錯誤接受率(FalseAcceptationRate,F(xiàn)AR)和錯誤拒絕率(FalseRejectionRate,F(xiàn)RR),其定義如下:
其中,F(xiàn)AR表示將非目標說話人的語音經(jīng)說話人確認系統(tǒng),其相似度得分大于給定的閾值,從而被判斷為目標說話人的錯誤率。FAR的值越小,表示系統(tǒng)將非目標說話人錯誤識別成目標說話人的概率越低,系統(tǒng)的性能就越好。當處于需要實現(xiàn)快速訪問,對于準確度的要求不高的日常生活中,說話人確認系統(tǒng)可以設定稍高的FAR值。
另一方面,F(xiàn)RR表示將目標說話人語音經(jīng)說話人確認系統(tǒng)的得分低于設置的閾值,被系統(tǒng)判斷為非目標說話人的錯誤率??梢钥闯?,F(xiàn)RR的值越小,系統(tǒng)將目標說話人誤識為非目標說話人的概率越低,系統(tǒng)的性能越好;在需要高安全性的商業(yè)場景中,說話人確認系統(tǒng)可設定稍高的FRR值,以犧牲訪問速度為代價,換取更高的系統(tǒng)安全性。
根據(jù)FAR和FRR,可拓展得到三個常用的說話人確認系統(tǒng)性能評價指標。
(1)等錯誤率(EER)
在說話人確認系統(tǒng)效能評測中,F(xiàn)AR隨著閾值的增大而減少,F(xiàn)RR隨閾值的增大而增大。目前國際競賽中最常用的測評指標是將FAR和FRR統(tǒng)一為一個指標。即取兩者相等時的錯誤率作為衡量說話人確認算法的性能指標,該錯誤率稱為等錯誤率(EqualErrorRate,EER)。在EER指標中,F(xiàn)AR和FRR被賦予相同的權重,即認為他們對系統(tǒng)影響的權重是相同的。
對于不同的說話人確認算法而言,較低的EER值,意味著FAR和EER曲線都會向下移動,表示算法的性能較優(yōu)秀。
(2)最小檢測代價
美國國家標準及技術研究所(NationalInstituteofStandardsandTechnology,NIST)在其舉辦的說話人確認評測(SpeakerRecognitionEvaluation,SRE)競賽中定義了一個利用FAR和FRR加權和來衡量說話人確認系統(tǒng)性能的指標,即檢測代價函數(shù)(DetectionCostFunction,DCF)[3]。DCF定義如下:
其中,CFRR表示錯誤拒絕的權重系數(shù),CFAR表示錯誤接受的權重系數(shù);這些參數(shù)的值在比賽中由NIST官方給定,針對不同的任務,每屆比賽中這些參數(shù)的值不盡相同;在實際應用中,這些權重參數(shù)值可以根據(jù)具體的應用場景進行設定。DCF的值取決于判決閾值,改變判決閾值就可以使得DCF的值達到最小,就形成了最小檢測代價(minDCF)。
相較于EER,minDCF考慮了兩種不同錯誤率帶來不同的代價,因此在實際應用中更加合理,可以更好地評價說話人確認系統(tǒng)的性能。
(3)DET曲線
說話人確認系統(tǒng)中,可以根據(jù)不同的應用場景設置不同的閾值,對FAR和FRR進行取舍,實際應用中一般采用DET曲線(DetectionErrorTrade-offCurve,DETCurve)來表示FAR和FRR隨閾值變化關系的曲線。如圖2展示的是i-vector系統(tǒng)[4]采用不同后端打分模型所對應的DET曲線,從DET曲線可以直觀地看出不同后端打分函數(shù)后說話人確認算法的性能差異。顯然DET曲線離原點越近系統(tǒng)的性能越好。此外,DET曲線中的變化是一種階梯狀的階躍函數(shù),當測試數(shù)據(jù)集足夠多的時候,DET曲線才能顯示出較平滑的斜率。
圖3DET曲線
3 主流短語音說話人確認技術綜述
說話人確認技術經(jīng)過近80年的發(fā)展,在辨識能力,魯棒性和模型表達能力上都取得了一些令人矚目的成績。在安靜條件下的長時說話人確認技術已經(jīng)可以滿足商用需求。實際應用中,研究人員發(fā)現(xiàn)說話人語音的長短對于說話人確認系統(tǒng)有較大的影響[5][6],主流的說話人確認技術在測試語音時長較短(小于3秒)的條件下,其性能有較大的波動。圖3顯示了高斯混合-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)[7]系統(tǒng)和ivector-GPLDA[8]系統(tǒng)當語音時長從150秒縮短為2秒間[9],EER的變化情況??梢娬f話人確認系統(tǒng)隨著訓練和測試數(shù)據(jù)中語音持續(xù)時間的變短而急劇下降。針對這個問題,研究者們開始將說話人確認技術的研究重點轉向短語音條件下的說話人確認技術。
圖3說話人確認系統(tǒng)性能隨不同語音時長的變化
3.1語音控制場景下短語音說話人確認技術的挑戰(zhàn)
一般而言,短語音說話人確認常見于智能家居,智能機器人等智能語音控制場景。對于智能語音控制場景下的短語音說話人確認技術,其短語音指的是,說話人的注冊和驗證的語音內容均為時長較短的詞語,比如:“開門”、“關門”等,時長短于3秒的語音??紤]具體應用場景,采集的語音信號混合了其他說話人、環(huán)境噪音、信道失配等干擾信息。對于短語音說話人確認技術的難點,總結如下:
(1)時長短:說話人注冊和測試的語音時長較短,通常僅僅只包含幾個字,比如:“開窗”,”關燈”等。這些語句中包含的有效語音信息較少,且說話人信息不充足[10],可能使得訓練和測試時匹配度下降,進而使得說話人確認系統(tǒng)表現(xiàn)較差。
(2)噪聲干擾問題:實際應用中,環(huán)境背景噪聲將會對說話人確認結果造成非常大的干擾,噪聲將會導致目標說話人語音中混入大量的不確定信息,進而使得參數(shù)模型難以估計準確統(tǒng)計量,最終嚴重降低說話人確認系統(tǒng)的性能[11]。
(3)無效錄音:在實際場景中采集語音數(shù)據(jù)時,測試集和訓練集中的語音不可避免的混入無效語音,這使得有用語音的時間進一步變短,不足以提供足夠的信息來訓練模型。對于傳統(tǒng)的說話人統(tǒng)計模型,這將使模型的后驗協(xié)方差變大[12][13],系統(tǒng)估計的不確定性上升。
3.2短語音說話人確認技術
由于短語音包含信息有限,不能沿襲傳統(tǒng)的長時說話人確認技術路線,需要尋找更適合短語音的特征表示,并對短語音進行合理建?;蜓a償。
3.2.1特征提取
傳統(tǒng)長時說話人確認方法多采用梅爾倒譜濾波器系數(shù)(MelFilterCepstralCoefficient,MFCC)作為輸入特征,但對于短語音說話人確認,因為語音中的不確定性往往不能忽略,所以基于MFCC和傳統(tǒng)i-vector的方法難以估計準確的說話人表征,導致識別率較差[14]。為了克服這一問題,有研究者提出采用多特征融合的方法,利用不同特征包含不同信息的特性,彌補短語音的缺陷。在數(shù)據(jù)量有限的文本無關說話人確認場景下,選取對語音上下文信息變化不敏感的特征進行融合[15]。初期研究者們嘗試了利用LPCC,LSF,PLP和PARCOR(Partialcorrelationcoefficients)[16][17][18]等短時頻譜特征進行融合,來提升短語音說話人確認系統(tǒng)的性能。近年,Todisco[19]提出了一種更能表征說話人信息的新特征,稱為CQCC(constantQtransformcoefficients),通過模擬人的聽覺感知系統(tǒng),引入常數(shù)Q因子,使得生成的頻譜圖在高頻和低頻都具有較高的分辨率,同MFCC特征相比更適合短語音說話人確認任務。此外,Leung等[20]利用語音上下文的關聯(lián)性,提出了基于N-gram語言模型的短語音說話人確認的方法。Penny等[21]提出將音素后驗概率信息轉換為特征的方法,利用語音識別得到音素后驗概率信息,輔助訓練UBM。Fu[22]則使用串聯(lián)特征(Tandemfeature)方法,即串聯(lián)短時頻譜特征和基于語音識別深度網(wǎng)絡的特征,在基于GMM-UBM的框架下取得了較高的識別率。Sainath[23]采用自編碼器的結構,將網(wǎng)絡的某個隱藏層設置為瓶頸層(Bottlenecklayer),將瓶頸層的輸出和其他特征串聯(lián),實驗表明該方法有助于提升短語音說話人確認系統(tǒng)性能。
3.2.2短語音建模
近年隨著i-vector框架成為說話人確認的基準(benchmark),研究者也展開了基于i-vector框架的短語音說話人確認研究。由于PLDA的框架可以適用于任意語音長度的說話人確認[24],因此,許多研究者開始了基于i-vector-PLDA框架下對短語音說話人確認技術的探索。其中模式匹配和歸一化是近年的研究熱點。
Jelil等[25]提出了在文本相關的短語音說話人確認中使用語音中隱含的音素序列信息的方法,分別構建了說話人相關的GMM和特定短語的高斯后驗概率圖,在測試階段,一方面需要比較目標說話人的GMM,另一方面,也要利用動態(tài)時間規(guī)整(DTW)方法與特定短語模板后驗圖匹配;Dey等[26]則嘗試在在基于DNN和i-vector框架下通過DTW引用序列信息,來提升文本相關短語音說話人確認性能。
歸一化方法主要用于補償訓練、注冊及測試過程中語音時長不匹配造成的影響。Hautam?ki等人[12]提出基于minimax策略提取i-vector向量以表征說話人,在使用EM算法提取Baum-Welch統(tǒng)計量時引入minimax方法幫助模型獲取更加魯棒的i-vector;2014年,Kanagasundaram等[27][28]發(fā)現(xiàn)模型估計同一說話人多條短語音的i-vectors有明顯差異,他們假設這種差異來源于i-vectors所包含的不一致的音素信息,因為短語音中包含的詞匯少、覆蓋的音素少,因此包含的說話人信息有限,在該假設的基礎上,他們提出短語音方差規(guī)整(Shortutterancevariancenormalization,SUVN)的方法來補償失配音素內容。Hasan等[29]在統(tǒng)計時長和音素數(shù)量的關系時發(fā)現(xiàn),當語音時長變短時,一句話中可檢測到的音素數(shù)量呈指數(shù)趨勢下降,基于這個發(fā)現(xiàn),他們將時長差異視為i-vector空間的噪聲,并對其建模,提高了說話人確認系統(tǒng)在短語音條件下的性能。
2013年后基于深度學習的方法也被引入,在DNN框架下,Snyder等人[30]利用時序池化層(temporalpoolinglayer)處理變長語音輸入;長時說話人確認中語音的i-vectors還可以學習到短語音下的音素內容差異[29],受此啟發(fā),Hong等[31]將遷移學習(transferlearning)的方法引入短語音說話人確認系統(tǒng)中,從長時語音訓練的模型域學習說話人區(qū)分性信息,并將KL正則化項加入到后端PLDA目標函數(shù)中,來度量源域和目標域的相似度,實驗結果顯示該方法有助于提升i-vector-PLDA框架下的短語音說話人確認性能。
3.3基于i-vector和PLDA的說話人確認算法
2011年,Dehak在實驗中發(fā)現(xiàn),JFA算法[32]假設本征信道空間是利用說話人無關的信道信息估計得到,但實際中部分說話人相關的信息也會泄露至本征信道空間之中,即JFA算法雖然假設利用本征音空間和本征信道空間來區(qū)分說話人信息和信道信息,但是無法有效分離兩個空間。因此,Dehak不劃分征音信道空間和本征音空間,并使用一個全局差異(TotalVariability)空間來統(tǒng)一描述說話人信息和信道信息,并一個全局差異因子(i-vector)描述說話人因子和信道因子[4]。在i-vector說話人確認系統(tǒng)中,說話人超矢量被分解為:
公式中m表示非特定說話人的超矢量;?是低秩的全局差異空間;?是全局差異因子,也稱為身份矢量,即i-vector。
在i-vector方法中,說話人信息和信道信息都包含在全局差異空間中,為了提高i-vector對說話人表征的準確度,需要引入信道補償技術來進一步消除信道因子的影響,因此,引入PLDA[33]對i-vector做進一步的因子分析,即將i-vector空間進一步分解為說話人空間和信道空間,具體分解如下:
其中,?表示說話人的語音;?是所有訓練i-vector的均值;?表示說話人空間矩陣,描述說話人相關特征;?是說話人因子;?是信道空間矩陣,描述同一說話人不同語音之間的差異;?是信道因子;?為噪聲因子。此外,?和?滿足?(0,1)分布。在測試階段,通過對數(shù)似然比來判斷兩條語音是否由同一說話人空間的特征生成,其公式如下:
其中ω1,ω2分別為注冊和測試階段的說話人i-vector向量,H0假設兩段語音屬于不同說話人,H1假設兩段語音屬于同一個說話人。
4 基于深度學習的時說話人確認主流技術
2013年前,主流的說話人確認技術都是基于統(tǒng)計模型方法。隨著深度學習方法在語音識別,圖像處理等領域取得突破性進展,學者們開始研究基于深度學習的說話人確認技術。其中主要分支包括:基于深度網(wǎng)絡特征學習的說話人確認方法,基于度量學習的說話人確認方法,基于多任務學習的說話人確認方法和端到端的說話人確認方法。
4.1基于深度網(wǎng)絡特征提取的方法
基于深度網(wǎng)絡的特征學習方法,利用復雜非線性結構賦予的特征提取能力,能自動對輸入的語音信號進行特征分析,提取出更高層、更抽象的說話人表征。
2014年,谷歌的研究員Ehsan等人[34]提出了基于DNN(DeepNeuralNetworks,DNN)結構的說話人確認算法,選取最后一層隱藏層激活后的輸出作為說話人幀級別特征(frame-levelfeatures);一段語音所有幀級別特征取平均后得到該段語音的句子級特征(utterance-levelfeatures),稱之為d-vector;2015年,Chen等人[35]發(fā)現(xiàn)輸入層到DNN第一個隱藏層間存在權值矩陣過大的問題,將其可視化后,發(fā)現(xiàn)存在大量的零值,而非零權值則存在聚集效應,針對這一問題,提出了使用局部連接和卷積網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)代替全連接的方法,新網(wǎng)絡的參數(shù)量下降了30%,且性能僅有4%的損失,此外,在同樣多的參數(shù)情況下,新網(wǎng)絡的EER分別提高了8%和10%;2017年,清華大學的Wang[36]提出了一種CNN和TDNN混合的特征提取網(wǎng)絡,輸入為語譜圖,輸出則是具有可分性的說話人表征,由于通過語譜圖可以直接獲取句子級別的特征,因此網(wǎng)絡性能具有較大的提升。2018年,Li等人[37]發(fā)現(xiàn)在基于DNN的特征傳統(tǒng)提取結構中,由于使用了含有參數(shù)的softmax層,可能導致部分說話人信息“泄漏”到了隱層與softmax層連接的權重參數(shù)中,導致由最后一層網(wǎng)絡節(jié)點所表示的深度特征不完備,進而使得準確率較低,因此作者改進了損失函數(shù),使得新的損失函數(shù)不含額外參數(shù),說話人全部信息表征均在網(wǎng)絡最后一層輸出;同年約翰斯霍普金斯大學的Povey[30],提出基于DNN的x-vector說話人確認系統(tǒng),該系統(tǒng)將語音特征提取過程分為幀級(frame-level)和段級(segment-level),并使用統(tǒng)計池化層連接兩級特征。同年Povey[38]發(fā)現(xiàn)使用數(shù)據(jù)增強,在原始語音數(shù)據(jù)中以一定比例加入噪聲、混響、人聲等干擾因素,使得網(wǎng)絡能夠從帶噪數(shù)據(jù)中提煉出有效信息,進而提高說話人確認系統(tǒng)的性能。
4.2基于度量學習的方法
基于度量學習的方法著眼于設計更適合說話人確認任務的目標函數(shù),使得特征提取網(wǎng)絡通過新的目標函數(shù)能學習到具有較小類內距離、較大類類距離的特征。
2017年,百度提出了DeepSpeaker[39]系統(tǒng),其使用人臉識別中廣泛應用的tripletloss作為損失函數(shù),模型訓練時先提取同一說話人兩段語音的表征,再提取不同說話人語音的表征,目標是令同一說話人表征之間的余弦相似度高于不同說話人之間的余弦相似度。在文本無關的數(shù)據(jù)上,EER相比基于DNN的方法降低了50%;2018年,紐約大學的Salehghaffari[40]提出了使用Simaese結構,即使用contrastiveloss作為損失函數(shù),其設計的基于CNN的說話人確認網(wǎng)絡較i-vector系統(tǒng)降低了近10%的EER。
4.3基于多任務學習的方法
由于不同語音任務之間存在一定的相似性(如關鍵詞檢測與說話人確認,語音分離與語音增強),研究者們嘗試通過在相關任務中共享信息,使得模型在說話人確認任務上具有更好的泛化能力,進而提高說話人確認系統(tǒng)的泛化能力。
2018年清華大學的Ding等人[41]將圖像生成領域中的TripletGAN遷移到了說話人確認領域,運用多任務學習的思想讓網(wǎng)絡同時進行說話人確認和語音合成兩個任務,使用生成對抗網(wǎng)絡(GenerativeAdversarialNetworks,GAN)作為數(shù)據(jù)生成器,生成更多的語音數(shù)據(jù)作為說話人確認網(wǎng)絡的輸入,使其學習到更具泛化能力的說話人表征,相比tripletloss網(wǎng)絡性能有較大的提升;同年,Novoselov等人[42],將說話人確認任務和數(shù)字識別任務相結合,使得網(wǎng)絡最后一層同時輸出說話人辨認和語音數(shù)字識別結果,在RSR2015數(shù)據(jù)庫上其相比基準算法有近50%的提升;Dey等人[43]則通過數(shù)字辨認和說話人確認的多任務學習,使網(wǎng)絡能聯(lián)合優(yōu)化各個問題,并采用tripletloss作為目標函數(shù),在RSR數(shù)據(jù)庫上較i-vector方法提升了43%。
4.4端到端的說話人確認
端到端的說話人確認系統(tǒng),輸入為不同說話人的語音信號,輸出即為說話人確認結果。端到端的網(wǎng)絡通常包含大量參數(shù),相比其它基于深度學習的說話人確認方法需要較多的訓練與測試數(shù)據(jù)。
2016年,Google的Heigold等人[44]提出了端到端說話人確認系統(tǒng),其包含兩個網(wǎng)絡:預先訓練好的特征提取網(wǎng)絡和用于決策打分的判決網(wǎng)絡。訓練階段,首先利用預訓練的特征提取網(wǎng)絡獲取語音幀級特征,取平均后得到句子級別特征并與其它語句提取出的特征計算余弦相似度;然后將相似度輸入邏輯回歸層中,其中僅包含權重變量和偏置變量兩個標量參數(shù),最終邏輯回歸層輸出是否為同一說話人;注冊階段,獲取輸入語音的特征,再次訓練整個網(wǎng)絡,訓練中僅改變邏輯回歸層的偏置參數(shù),其他參數(shù)保持不變;驗證階段,輸入待驗證的語音,邏輯回歸層直接輸出判決結果。2016年微軟的Zhang[45]發(fā)現(xiàn)靜音幀信號對句級別特征的多余貢獻會弱化其表征能力,因此提出使用注意力機制,引入兩個預訓練網(wǎng)絡,一個用于獲取每一幀語音的音素特征,另一個則判斷當前詞是否為三音素組,結合兩個網(wǎng)絡輸出賦予每一幀信號不同權重,加權合成句級別特征。2017年Google的Chowdhury改進了注意力機制[46],權重的獲取不再依賴預先訓練的輔助網(wǎng)絡,而是直接對幀級別特征進行非線性變換學習權重參數(shù),這樣極大地減少了網(wǎng)絡的復雜程度;Google的Li[47]提出用領域自適應的方法,在端到端的說話人確認任務中利用大語料數(shù)據(jù)集輔助小語料數(shù)據(jù)集,同時針對文本相關和文本無關兩種場景分別設計了兩類不同的損失函數(shù),使得網(wǎng)絡訓練時間減少了60%,準確率提高了10%。
5 總結與展望
本文重點介紹了面向智能語音控制場景下的短語音說話人確認技術,綜述了基本概念,分析了短語音說話人確認技術面臨的挑戰(zhàn),并從特征提取和短語音建模兩個角度介紹了主流方法,最后介紹了基于深度學習的說話人確認技術發(fā)展現(xiàn)狀。
相比于基于傳統(tǒng)機器學習的說話人確認技術,基于深度學習的短語音說話人確認技術性能更佳,這得益于深度網(wǎng)絡具有強大的特征提取能力。但是,我們也看到,基于深度學習的方法需要大量的標注訓練語音數(shù)據(jù)進行模型訓練,這限制了基于深度學習的說話人確認模型的泛化以及應用推廣。因此采用遷移學習方法將基于大語料數(shù)據(jù)庫訓練獲得的說話人模型遷移到基于小語料數(shù)據(jù)庫的說話人模型、有效地提取短語音中更具區(qū)分性的特征以及設計更適合短語音說話人確認任務的目標函數(shù)等是未來重點的研究方向。
參考文獻
[1]HansenJHL,HasanT.SpeakerRecognitionbyMachinesandHumans:Atutorialreview[J].IEEESignalProcessingMagazine,2015,32(6):74-99.
[2]鄭方,李藍天,張慧,等.聲紋識別技術及其應用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.
[3]SchefferN,FerrerL,GraciarenaM,etal.TheSRINIST2010speakerrecognitionevaluationsystem[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2011:5292-5295.
[4]DehakN,KennyPJ,DehakR,etal.Front-EndFactorAnalysisforSpeakerVerification[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2011,19(4):788-798.
[5]MarkelJ,OshikaB,GrayA.Long-termfeatureaveragingforspeakerrecognition[J].IEEETransactionsonAcousticsSpeech&SignalProcessing,1977,25(4):330-337.
[6]K.Li,E.Wrench.Anapproachtotext-independentspeakerrecognitionwithshortutterances[C]//Acoustics,Speech,andSignalProcessing,IEEEInternationalConferenceonICASSP.IEEE,1983:555-558.
[7]ReynoldsDA,QuatieriTF,DunnRB.SpeakerVerificationUsingAdaptedGaussianMixtureModels[C]//DigitalSignalProcessing.2000:19–41.
[8]KennyP.Bayesianspeakerverificationwithheavytailedpriors[C]//Proc.OdysseySpeakerandLanguageRecogntionWorkshop,Brno,CzechRepublic.2010.
[9]PoddarA,SahidullahM,SahaG.Speakerverificationwithshortutterances:areviewofchallenges,trendsandopportunities[J].IetBiometrics,2018,7(2):91-101.
[10]LarcherA,KongAL,MaB,etal.Text-dependentspeakerverification:Classifiers,databasesandRSR2015[J].SpeechCommunication,2014,60(3):56-77.
[11]DasRK,PrasannaSRM.SpeakerVerificationfromShortUtterancePerspective:AReview[J].IeteTechnicalReview,2017(1):1-19.
[12]V.Hautam?ki,Y.-C.Cheng,P.Rajan,etal.Minimaxi-vectorextractorforshortdurationspeakerverification[J].2013.
[13]PoorjamAH,SaeidiR,KinnunenT,etal.IncorporatinguncertaintyasaQualityMeasureinI-VectorBasedLanguageRecognition[C]//TheSpeakerandLanguageRecognitionWorkshop.2016.
[14]KanagasundaramA,VogtR,DeanD,etal.i-vectorBasedSpeakerRecognitiononShortUtterances[C]//INTERSPEECH.DBLP,2011.
[15]HosseinzadehD,KrishnanS.OntheUseofComplementarySpectralFeaturesforSpeakerRecognition[J].EurasipJournalonAdvancesinSignalProcessing,2007,2008(1):1-10.
[16]MakhoulJ.Linearprediction:atutorialreview.ProcIEEE63:561-580[J].ProceedingsoftheIEEE,1975,63(4):561-580.
[17]HermanskyH.Perceptuallinearpredictive(PLP)analysisofspeech.[J].JournaloftheAcousticalSocietyofAmerica,1990,87(4):1738-1752.
[18]HuangX,AceroA.SpokenLanguageProcessing:AGuidetoTheory,Algorithm,andSystemDevelopment[M].PrenticeHallPTR,2001.
[19]TodiscoM,DelgadoH,EvansN.ArticulationratefilteringofCQCCfeaturesforautomaticspeakerverification[C]//INTERSPEECH.2018.
[20]LeungKY,MakMW,SiuMH,etal.Adaptivearticulatoryfeature-basedconditionalpronunciationmodelingforspeakerverification[J].SpeechCommunication,2006,48(1):71-84.
[21]KennyP,GuptaV,StafylakisT,etal.DeepneuralnetworksforextractingBaum-Welchstatisticsforspeakerrecognition[C]//Odyssey.2014.
[22]FuT,QianY,LiuY,etal.Tandemdeepfeaturesfortext-dependentspeakerverification[C]//ConferenceoftheInternationalSpeechCommunicationAssociation.InternationalSpeechCommunicationAssociation(ISCA),2014:747-753.
[23]SainathTN,KingsburyB,RamabhadranB.Auto-encoderbottleneckfeaturesusingdeepbeliefnetworks[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2012:4153-4156.
[24]KennyP,StafylakisT,OuelletP,etal.PLDAforspeakerverificationwithutterancesofarbitraryduration[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2013:7649-7653.
[25]JelilS,DasRK,SinhaR,etal.SpeakerVerificationUsingGaussianPosteriorgramsonFixedPhraseShortUtterances[C]//INTERSPEECH.2015.
[26]DeyS,MotlicekP,MadikeriS,etal.Exploitingsequenceinformationfortext-dependentSpeakerVerification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2017:5370-5374.
[27]KanagasundaramA,DeanD,Gonzalez-DominguezJ,etal.ImprovingShortUtterancebasedI-vectorSpeakerRecognitionusingSourceandUtterance-DurationNormalizationTechniques[C]//Proceed.ofINTERSPEECH.2013:3395-3400.
[28]KanagasundaramA,DeanD,SridharanS,etal.Improvingshortutterancei-vectorspeakerverificationusingutterancevariancemodellingandcompensationtechniques[J].SpeechCommunication,2014,59(2):69-82.
[29]HasanT,SaeidiR,HansenJHL,etal.Durationmismatchcompensationfori-vectorbasedspeakerrecognitionsystems[J].2013:7663-7667.
[30]SnyderD,GhahremaniP,PoveyD,etal.Deepneuralnetwork-basedspeakerembeddingsforend-to-endspeakerverification[C]//SpokenLanguageTechnologyWorkshop.IEEE,2017:165-170.
[31]HongQ,LiL,WanL,etal.TransferLearningforSpeakerVerificationonShortUtterances[C]//INTERSPEECH.2016:1848-1852.
[32]KennyP.Jointfactoranalysisofspeakerandsessionvariability:Theoryandalgorithms[J].2005.
[33]SenoussaouiM,KennyP,BrümmerN,etal.MixtureofPLDAModelsini-vectorSpaceforGender-IndependentSpeakerRecognition[C]//INTERSPEECH2011,ConferenceoftheInternationalSpeechCommunicationAssociation,Florence,Italy,August.DBLP,2011:25-28.
[34]VarianiE,LeiX,McdermottE,etal.Deepneuralnetworksforsmallfootprinttext-dependentspeakerverification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2014:4052-4056.
[35]ChenY,Lopez-MorenoI,SainathTN,etal.Locally-connectedandconvolutionalneuralnetworksforsmallfootprintspeakerrecognition[C]//SixteenthAnnualConferenceoftheInternationalSpeechCommunicationAssociation.2015.
[36]LiL,ChenY,ShiY,etal.DeepSpeakerFeatureLearningforText-independentSpeakerVerification[J].2017:1542-1546.
[37]LiL,TangZ,WangD,etal.Full-infoTrainingforDeepSpeakerFeatureLearning[J].2018.
[38]SnyderD,Garcia-RomeroD,SellG,etal.X-vectors:RobustDNNembeddingsforspeakerrecognition[J].ICASSP,Calgary,2018.
[39]LiC,MaX,JiangB,etal.DeepSpeaker:anEnd-to-EndNeuralSpeakerEmbeddingSystem[J].2017.
[40]HosseinSalehghaffari,etal.SpeakerVeri?cationusingConvolutionalNeuralNetworks[J].2018
[41]DingW,HeL.MTGAN:SpeakerVerificationthroughMultitaskingTripletGenerativeAdversarialNetworks[J].2018.
[42]NovoselovS,KudashevO,SchemelininV,etal.DeepCNNbasedfeatureextractorfortext-promptedspeakerrecognition[J].2018.
[43]SDey,TKoshinaka,PMotlicek,SMadikeri,etal,DNNbasedspeakerembeddingusingcontentinformationfortext-dependentspeakerverification[J].2018
[44]HeigoldG,MorenoI,BengioS,etal.End-to-endtext-dependentspeakerverification[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2016IEEEInternationalConferenceon.IEEE,2016:5115-5119.
[45]ZhangSX,ChenZ,ZhaoY,etal.End-to-endattentionbasedtext-dependentspeakerverification[C]//SpokenLanguageTechnologyWorkshop(SLT),2016IEEE.IEEE,2016:171-178.
[46]ChowdhuryFA,WangQ,MorenoIL,etal.Attention-BasedModelsforText-DependentSpeakerVerification[J].arXivpreprintarXiv:1710.10470,2017.
[47]WanL,WangQ,PapirA,etal.Generalizedend-to-endlossforspeakerverification[J].arXivpreprintarXiv:1710.10467,2017.
標簽:
中國傳動網(wǎng)版權與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
產品新聞
更多>2024-10-31
2024-10-31
2024-10-31
2024-10-31
2024-10-29
2024-10-18