面向智能語(yǔ)音控制場(chǎng)景的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)綜述

文:北京大學(xué)深圳研究生院現(xiàn)代信號(hào)與數(shù)據(jù)處理實(shí)驗(yàn)室 彭俊逸 鄒月嫻2018年第四期

    基于語(yǔ)音的說(shuō)話人認(rèn)證技術(shù)(聲紋識(shí)別技術(shù))屬于生物特征識(shí)別研究范疇,在互聯(lián)網(wǎng)/物聯(lián)網(wǎng)時(shí)代具有重要的應(yīng)用價(jià)值。目前,限定條件下的說(shuō)話人身份認(rèn)證技術(shù)已較為成熟,在智能手機(jī)、銀行服務(wù)、門(mén)禁控制和智能客服等場(chǎng)景獲得了廣泛的應(yīng)用。然而,作為智能控制場(chǎng)景中實(shí)現(xiàn)基于語(yǔ)音的自然人機(jī)交互的關(guān)鍵技術(shù),短語(yǔ)音說(shuō)話人身份認(rèn)證技術(shù)目前尚不能滿足應(yīng)用需求。本文將重點(diǎn)對(duì)短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的研究進(jìn)行技術(shù)綜述。首先,概述說(shuō)話人確認(rèn)技術(shù)的基本概念和主流技術(shù)路線;其次,分析短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)面臨的挑戰(zhàn);然后,對(duì)基于深度學(xué)習(xí)的說(shuō)話人確認(rèn)技術(shù)進(jìn)行綜述;最后,展望了短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的發(fā)展趨勢(shì)和應(yīng)用前景。

1  引言

    人類(lèi)之所以能夠”聞其聲而知其人”,是因?yàn)槊總€(gè)說(shuō)話人都有不同的說(shuō)話方式和用詞習(xí)慣,以及略有差異的發(fā)聲器官生理結(jié)構(gòu),這兩點(diǎn)導(dǎo)致不同說(shuō)話人在聲音上各具特點(diǎn),具有不同聲紋信息?;谡Z(yǔ)音的說(shuō)話人確認(rèn)是利用計(jì)算機(jī)分析和提取語(yǔ)音中蘊(yùn)含的說(shuō)話人信息來(lái)自動(dòng)進(jìn)行說(shuō)話人身份認(rèn)證的技術(shù),是自然人機(jī)交互的重要技術(shù)之一,也是智能機(jī)器人的關(guān)鍵技術(shù),具有重要的研究?jī)r(jià)值。

    說(shuō)話人確認(rèn)技術(shù)目前廣泛應(yīng)用于各類(lèi)具有身份認(rèn)證需求的領(lǐng)域,例如:在智能家居領(lǐng)域,說(shuō)話人確認(rèn)技術(shù)能幫助智能設(shè)備確認(rèn)說(shuō)話人的身份,使得智能系統(tǒng)能對(duì)于不同說(shuō)話人提供定制化服務(wù)和內(nèi)容;在金融領(lǐng)域,說(shuō)話人確認(rèn)技術(shù)可以用于基于網(wǎng)絡(luò)交易的遠(yuǎn)程身份認(rèn)證,進(jìn)而提高金融賬戶的安全性,并降低基于互聯(lián)網(wǎng)的金融犯罪成功率;在公安司法領(lǐng)域,可以用于電信詐騙犯的身份偵查,從而幫助公安有效遏制并打擊犯罪。具體而言,公安人員可以利用說(shuō)話人確認(rèn)技術(shù),先從電話錄音中截取目標(biāo)說(shuō)話人的語(yǔ)音數(shù)據(jù),再匹配說(shuō)話人數(shù)據(jù)庫(kù),最終鎖定犯罪嫌疑人。使用先進(jìn)的說(shuō)話人確認(rèn)技術(shù)可以降低辦案成本,提高破案率。

    說(shuō)話人確認(rèn)技術(shù)的研究開(kāi)始于20世紀(jì)30年代,早期研究人員的工作主要集中在人耳聽(tīng)辨,模板匹配等方向;隨著統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的發(fā)展,說(shuō)話人確認(rèn)的工作開(kāi)始轉(zhuǎn)向語(yǔ)音特征提取和模式匹配等方法研究;近年隨著人工智能的崛起和計(jì)算能力的提升,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的說(shuō)話人確認(rèn)技術(shù)逐漸成為主流。

    本文將首先介紹說(shuō)話人確認(rèn)的基本概念,其次從特征提取和短語(yǔ)音建模兩個(gè)角度,對(duì)智能語(yǔ)音控制場(chǎng)景下的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的發(fā)展歷程進(jìn)行簡(jiǎn)要回顧,然后分析幾類(lèi)運(yùn)用深度學(xué)習(xí)的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù),最后對(duì)發(fā)展趨勢(shì)做出總結(jié)與展望。

2  說(shuō)話人確認(rèn)技術(shù)綜述

    說(shuō)話人確認(rèn)(SpeakerVerification)技術(shù),如圖1所示,是確定待識(shí)別的語(yǔ)音是否來(lái)自其所宣稱(chēng)的目標(biāo)說(shuō)話人[1][2],是“一對(duì)一”的判決問(wèn)題。具體而言,說(shuō)話人確認(rèn)任務(wù)可以分為訓(xùn)練,注冊(cè),驗(yàn)證三個(gè)階段。在訓(xùn)練階段:利用大量的數(shù)據(jù)訓(xùn)練說(shuō)話人通用模型;注冊(cè)階段:采集注冊(cè)說(shuō)話人的少量語(yǔ)音數(shù)據(jù)并通過(guò)算法獲得注冊(cè)說(shuō)話人的聲紋模型;驗(yàn)證階段:輸入聲稱(chēng)為目標(biāo)說(shuō)話人的測(cè)試語(yǔ)音并計(jì)算對(duì)應(yīng)的說(shuō)話人模型,再與已經(jīng)注冊(cè)的目標(biāo)說(shuō)話人模型進(jìn)行匹配,最終判定其身份是否為已注冊(cè)的目標(biāo)說(shuō)話人。

圖1說(shuō)話人確認(rèn)概念示意圖

2.1文本相關(guān)和文本無(wú)關(guān)

    根據(jù)說(shuō)話人確認(rèn)技術(shù)對(duì)語(yǔ)音的文本信息是否予以限制,可以將說(shuō)話人確認(rèn)技術(shù)分為文本無(wú)關(guān)的(text-independent)和文本相關(guān)的(text-dependent)。

    文本無(wú)關(guān)的說(shuō)話人確認(rèn)技術(shù):訓(xùn)練模型時(shí)不限定所采用語(yǔ)音數(shù)據(jù)的文本信息,且訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音的文本內(nèi)容不要求一致,即說(shuō)話人可以隨意說(shuō)任意語(yǔ)句。

    文本相關(guān)的說(shuō)話人確認(rèn)技術(shù):模型訓(xùn)練時(shí)所采用語(yǔ)音數(shù)據(jù)的文本內(nèi)容預(yù)先固定在某一個(gè)特定的范圍內(nèi),并要求訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音的文本內(nèi)容保持一致。

2.2說(shuō)話人確認(rèn)技術(shù)性能評(píng)測(cè)

    衡量說(shuō)話人確認(rèn)技術(shù)性能的兩個(gè)基本指標(biāo)是:錯(cuò)誤接受率(FalseAcceptationRate,F(xiàn)AR)和錯(cuò)誤拒絕率(FalseRejectionRate,F(xiàn)RR),其定義如下:

    其中,F(xiàn)AR表示將非目標(biāo)說(shuō)話人的語(yǔ)音經(jīng)說(shuō)話人確認(rèn)系統(tǒng),其相似度得分大于給定的閾值,從而被判斷為目標(biāo)說(shuō)話人的錯(cuò)誤率。FAR的值越小,表示系統(tǒng)將非目標(biāo)說(shuō)話人錯(cuò)誤識(shí)別成目標(biāo)說(shuō)話人的概率越低,系統(tǒng)的性能就越好。當(dāng)處于需要實(shí)現(xiàn)快速訪問(wèn),對(duì)于準(zhǔn)確度的要求不高的日常生活中,說(shuō)話人確認(rèn)系統(tǒng)可以設(shè)定稍高的FAR值。

    另一方面,F(xiàn)RR表示將目標(biāo)說(shuō)話人語(yǔ)音經(jīng)說(shuō)話人確認(rèn)系統(tǒng)的得分低于設(shè)置的閾值,被系統(tǒng)判斷為非目標(biāo)說(shuō)話人的錯(cuò)誤率??梢钥闯觯現(xiàn)RR的值越小,系統(tǒng)將目標(biāo)說(shuō)話人誤識(shí)為非目標(biāo)說(shuō)話人的概率越低,系統(tǒng)的性能越好;在需要高安全性的商業(yè)場(chǎng)景中,說(shuō)話人確認(rèn)系統(tǒng)可設(shè)定稍高的FRR值,以犧牲訪問(wèn)速度為代價(jià),換取更高的系統(tǒng)安全性。

    根據(jù)FAR和FRR,可拓展得到三個(gè)常用的說(shuō)話人確認(rèn)系統(tǒng)性能評(píng)價(jià)指標(biāo)。

(1)等錯(cuò)誤率(EER)

    在說(shuō)話人確認(rèn)系統(tǒng)效能評(píng)測(cè)中,F(xiàn)AR隨著閾值的增大而減少,F(xiàn)RR隨閾值的增大而增大。目前國(guó)際競(jìng)賽中最常用的測(cè)評(píng)指標(biāo)是將FAR和FRR統(tǒng)一為一個(gè)指標(biāo)。即取兩者相等時(shí)的錯(cuò)誤率作為衡量說(shuō)話人確認(rèn)算法的性能指標(biāo),該錯(cuò)誤率稱(chēng)為等錯(cuò)誤率(EqualErrorRate,EER)。在EER指標(biāo)中,F(xiàn)AR和FRR被賦予相同的權(quán)重,即認(rèn)為他們對(duì)系統(tǒng)影響的權(quán)重是相同的。

    對(duì)于不同的說(shuō)話人確認(rèn)算法而言,較低的EER值,意味著FAR和EER曲線都會(huì)向下移動(dòng),表示算法的性能較優(yōu)秀。

(2)最小檢測(cè)代價(jià)

    美國(guó)國(guó)家標(biāo)準(zhǔn)及技術(shù)研究所(NationalInstituteofStandardsandTechnology,NIST)在其舉辦的說(shuō)話人確認(rèn)評(píng)測(cè)(SpeakerRecognitionEvaluation,SRE)競(jìng)賽中定義了一個(gè)利用FAR和FRR加權(quán)和來(lái)衡量說(shuō)話人確認(rèn)系統(tǒng)性能的指標(biāo),即檢測(cè)代價(jià)函數(shù)(DetectionCostFunction,DCF)[3]。DCF定義如下:

    其中,CFRR表示錯(cuò)誤拒絕的權(quán)重系數(shù),CFAR表示錯(cuò)誤接受的權(quán)重系數(shù);這些參數(shù)的值在比賽中由NIST官方給定,針對(duì)不同的任務(wù),每屆比賽中這些參數(shù)的值不盡相同;在實(shí)際應(yīng)用中,這些權(quán)重參數(shù)值可以根據(jù)具體的應(yīng)用場(chǎng)景進(jìn)行設(shè)定。DCF的值取決于判決閾值,改變判決閾值就可以使得DCF的值達(dá)到最小,就形成了最小檢測(cè)代價(jià)(minDCF)。

    相較于EER,minDCF考慮了兩種不同錯(cuò)誤率帶來(lái)不同的代價(jià),因此在實(shí)際應(yīng)用中更加合理,可以更好地評(píng)價(jià)說(shuō)話人確認(rèn)系統(tǒng)的性能。

(3)DET曲線

    說(shuō)話人確認(rèn)系統(tǒng)中,可以根據(jù)不同的應(yīng)用場(chǎng)景設(shè)置不同的閾值,對(duì)FAR和FRR進(jìn)行取舍,實(shí)際應(yīng)用中一般采用DET曲線(DetectionErrorTrade-offCurve,DETCurve)來(lái)表示FAR和FRR隨閾值變化關(guān)系的曲線。如圖2展示的是i-vector系統(tǒng)[4]采用不同后端打分模型所對(duì)應(yīng)的DET曲線,從DET曲線可以直觀地看出不同后端打分函數(shù)后說(shuō)話人確認(rèn)算法的性能差異。顯然DET曲線離原點(diǎn)越近系統(tǒng)的性能越好。此外,DET曲線中的變化是一種階梯狀的階躍函數(shù),當(dāng)測(cè)試數(shù)據(jù)集足夠多的時(shí)候,DET曲線才能顯示出較平滑的斜率。

圖3DET曲線

3  主流短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)綜述

    說(shuō)話人確認(rèn)技術(shù)經(jīng)過(guò)近80年的發(fā)展,在辨識(shí)能力,魯棒性和模型表達(dá)能力上都取得了一些令人矚目的成績(jī)。在安靜條件下的長(zhǎng)時(shí)說(shuō)話人確認(rèn)技術(shù)已經(jīng)可以滿足商用需求。實(shí)際應(yīng)用中,研究人員發(fā)現(xiàn)說(shuō)話人語(yǔ)音的長(zhǎng)短對(duì)于說(shuō)話人確認(rèn)系統(tǒng)有較大的影響[5][6],主流的說(shuō)話人確認(rèn)技術(shù)在測(cè)試語(yǔ)音時(shí)長(zhǎng)較短(小于3秒)的條件下,其性能有較大的波動(dòng)。圖3顯示了高斯混合-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)[7]系統(tǒng)和ivector-GPLDA[8]系統(tǒng)當(dāng)語(yǔ)音時(shí)長(zhǎng)從150秒縮短為2秒間[9],EER的變化情況??梢?jiàn)說(shuō)話人確認(rèn)系統(tǒng)隨著訓(xùn)練和測(cè)試數(shù)據(jù)中語(yǔ)音持續(xù)時(shí)間的變短而急劇下降。針對(duì)這個(gè)問(wèn)題,研究者們開(kāi)始將說(shuō)話人確認(rèn)技術(shù)的研究重點(diǎn)轉(zhuǎn)向短語(yǔ)音條件下的說(shuō)話人確認(rèn)技術(shù)。

圖3說(shuō)話人確認(rèn)系統(tǒng)性能隨不同語(yǔ)音時(shí)長(zhǎng)的變化

3.1語(yǔ)音控制場(chǎng)景下短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的挑戰(zhàn)

    一般而言,短語(yǔ)音說(shuō)話人確認(rèn)常見(jiàn)于智能家居,智能機(jī)器人等智能語(yǔ)音控制場(chǎng)景。對(duì)于智能語(yǔ)音控制場(chǎng)景下的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù),其短語(yǔ)音指的是,說(shuō)話人的注冊(cè)和驗(yàn)證的語(yǔ)音內(nèi)容均為時(shí)長(zhǎng)較短的詞語(yǔ),比如:“開(kāi)門(mén)”、“關(guān)門(mén)”等,時(shí)長(zhǎng)短于3秒的語(yǔ)音??紤]具體應(yīng)用場(chǎng)景,采集的語(yǔ)音信號(hào)混合了其他說(shuō)話人、環(huán)境噪音、信道失配等干擾信息。對(duì)于短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的難點(diǎn),總結(jié)如下:

    (1)時(shí)長(zhǎng)短:說(shuō)話人注冊(cè)和測(cè)試的語(yǔ)音時(shí)長(zhǎng)較短,通常僅僅只包含幾個(gè)字,比如:“開(kāi)窗”,”關(guān)燈”等。這些語(yǔ)句中包含的有效語(yǔ)音信息較少,且說(shuō)話人信息不充足[10],可能使得訓(xùn)練和測(cè)試時(shí)匹配度下降,進(jìn)而使得說(shuō)話人確認(rèn)系統(tǒng)表現(xiàn)較差。

    (2)噪聲干擾問(wèn)題:實(shí)際應(yīng)用中,環(huán)境背景噪聲將會(huì)對(duì)說(shuō)話人確認(rèn)結(jié)果造成非常大的干擾,噪聲將會(huì)導(dǎo)致目標(biāo)說(shuō)話人語(yǔ)音中混入大量的不確定信息,進(jìn)而使得參數(shù)模型難以估計(jì)準(zhǔn)確統(tǒng)計(jì)量,最終嚴(yán)重降低說(shuō)話人確認(rèn)系統(tǒng)的性能[11]。

    (3)無(wú)效錄音:在實(shí)際場(chǎng)景中采集語(yǔ)音數(shù)據(jù)時(shí),測(cè)試集和訓(xùn)練集中的語(yǔ)音不可避免的混入無(wú)效語(yǔ)音,這使得有用語(yǔ)音的時(shí)間進(jìn)一步變短,不足以提供足夠的信息來(lái)訓(xùn)練模型。對(duì)于傳統(tǒng)的說(shuō)話人統(tǒng)計(jì)模型,這將使模型的后驗(yàn)協(xié)方差變大[12][13],系統(tǒng)估計(jì)的不確定性上升。

3.2短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)

    由于短語(yǔ)音包含信息有限,不能沿襲傳統(tǒng)的長(zhǎng)時(shí)說(shuō)話人確認(rèn)技術(shù)路線,需要尋找更適合短語(yǔ)音的特征表示,并對(duì)短語(yǔ)音進(jìn)行合理建模或補(bǔ)償。

3.2.1特征提取

    傳統(tǒng)長(zhǎng)時(shí)說(shuō)話人確認(rèn)方法多采用梅爾倒譜濾波器系數(shù)(MelFilterCepstralCoefficient,MFCC)作為輸入特征,但對(duì)于短語(yǔ)音說(shuō)話人確認(rèn),因?yàn)檎Z(yǔ)音中的不確定性往往不能忽略,所以基于MFCC和傳統(tǒng)i-vector的方法難以估計(jì)準(zhǔn)確的說(shuō)話人表征,導(dǎo)致識(shí)別率較差[14]。為了克服這一問(wèn)題,有研究者提出采用多特征融合的方法,利用不同特征包含不同信息的特性,彌補(bǔ)短語(yǔ)音的缺陷。在數(shù)據(jù)量有限的文本無(wú)關(guān)說(shuō)話人確認(rèn)場(chǎng)景下,選取對(duì)語(yǔ)音上下文信息變化不敏感的特征進(jìn)行融合[15]。初期研究者們嘗試了利用LPCC,LSF,PLP和PARCOR(Partialcorrelationcoefficients)[16][17][18]等短時(shí)頻譜特征進(jìn)行融合,來(lái)提升短語(yǔ)音說(shuō)話人確認(rèn)系統(tǒng)的性能。近年,Todisco[19]提出了一種更能表征說(shuō)話人信息的新特征,稱(chēng)為CQCC(constantQtransformcoefficients),通過(guò)模擬人的聽(tīng)覺(jué)感知系統(tǒng),引入常數(shù)Q因子,使得生成的頻譜圖在高頻和低頻都具有較高的分辨率,同MFCC特征相比更適合短語(yǔ)音說(shuō)話人確認(rèn)任務(wù)。此外,Leung等[20]利用語(yǔ)音上下文的關(guān)聯(lián)性,提出了基于N-gram語(yǔ)言模型的短語(yǔ)音說(shuō)話人確認(rèn)的方法。Penny等[21]提出將音素后驗(yàn)概率信息轉(zhuǎn)換為特征的方法,利用語(yǔ)音識(shí)別得到音素后驗(yàn)概率信息,輔助訓(xùn)練UBM。Fu[22]則使用串聯(lián)特征(Tandemfeature)方法,即串聯(lián)短時(shí)頻譜特征和基于語(yǔ)音識(shí)別深度網(wǎng)絡(luò)的特征,在基于GMM-UBM的框架下取得了較高的識(shí)別率。Sainath[23]采用自編碼器的結(jié)構(gòu),將網(wǎng)絡(luò)的某個(gè)隱藏層設(shè)置為瓶頸層(Bottlenecklayer),將瓶頸層的輸出和其他特征串聯(lián),實(shí)驗(yàn)表明該方法有助于提升短語(yǔ)音說(shuō)話人確認(rèn)系統(tǒng)性能。

3.2.2短語(yǔ)音建模

    近年隨著i-vector框架成為說(shuō)話人確認(rèn)的基準(zhǔn)(benchmark),研究者也展開(kāi)了基于i-vector框架的短語(yǔ)音說(shuō)話人確認(rèn)研究。由于PLDA的框架可以適用于任意語(yǔ)音長(zhǎng)度的說(shuō)話人確認(rèn)[24],因此,許多研究者開(kāi)始了基于i-vector-PLDA框架下對(duì)短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)的探索。其中模式匹配和歸一化是近年的研究熱點(diǎn)。

    Jelil等[25]提出了在文本相關(guān)的短語(yǔ)音說(shuō)話人確認(rèn)中使用語(yǔ)音中隱含的音素序列信息的方法,分別構(gòu)建了說(shuō)話人相關(guān)的GMM和特定短語(yǔ)的高斯后驗(yàn)概率圖,在測(cè)試階段,一方面需要比較目標(biāo)說(shuō)話人的GMM,另一方面,也要利用動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法與特定短語(yǔ)模板后驗(yàn)圖匹配;Dey等[26]則嘗試在在基于DNN和i-vector框架下通過(guò)DTW引用序列信息,來(lái)提升文本相關(guān)短語(yǔ)音說(shuō)話人確認(rèn)性能。

    歸一化方法主要用于補(bǔ)償訓(xùn)練、注冊(cè)及測(cè)試過(guò)程中語(yǔ)音時(shí)長(zhǎng)不匹配造成的影響。Hautamäki等人[12]提出基于minimax策略提取i-vector向量以表征說(shuō)話人,在使用EM算法提取Baum-Welch統(tǒng)計(jì)量時(shí)引入minimax方法幫助模型獲取更加魯棒的i-vector;2014年,Kanagasundaram等[27][28]發(fā)現(xiàn)模型估計(jì)同一說(shuō)話人多條短語(yǔ)音的i-vectors有明顯差異,他們假設(shè)這種差異來(lái)源于i-vectors所包含的不一致的音素信息,因?yàn)槎陶Z(yǔ)音中包含的詞匯少、覆蓋的音素少,因此包含的說(shuō)話人信息有限,在該假設(shè)的基礎(chǔ)上,他們提出短語(yǔ)音方差規(guī)整(Shortutterancevariancenormalization,SUVN)的方法來(lái)補(bǔ)償失配音素內(nèi)容。Hasan等[29]在統(tǒng)計(jì)時(shí)長(zhǎng)和音素?cái)?shù)量的關(guān)系時(shí)發(fā)現(xiàn),當(dāng)語(yǔ)音時(shí)長(zhǎng)變短時(shí),一句話中可檢測(cè)到的音素?cái)?shù)量呈指數(shù)趨勢(shì)下降,基于這個(gè)發(fā)現(xiàn),他們將時(shí)長(zhǎng)差異視為i-vector空間的噪聲,并對(duì)其建模,提高了說(shuō)話人確認(rèn)系統(tǒng)在短語(yǔ)音條件下的性能。

    2013年后基于深度學(xué)習(xí)的方法也被引入,在DNN框架下,Snyder等人[30]利用時(shí)序池化層(temporalpoolinglayer)處理變長(zhǎng)語(yǔ)音輸入;長(zhǎng)時(shí)說(shuō)話人確認(rèn)中語(yǔ)音的i-vectors還可以學(xué)習(xí)到短語(yǔ)音下的音素內(nèi)容差異[29],受此啟發(fā),Hong等[31]將遷移學(xué)習(xí)(transferlearning)的方法引入短語(yǔ)音說(shuō)話人確認(rèn)系統(tǒng)中,從長(zhǎng)時(shí)語(yǔ)音訓(xùn)練的模型域?qū)W習(xí)說(shuō)話人區(qū)分性信息,并將KL正則化項(xiàng)加入到后端PLDA目標(biāo)函數(shù)中,來(lái)度量源域和目標(biāo)域的相似度,實(shí)驗(yàn)結(jié)果顯示該方法有助于提升i-vector-PLDA框架下的短語(yǔ)音說(shuō)話人確認(rèn)性能。

3.3基于i-vector和PLDA的說(shuō)話人確認(rèn)算法

    2011年,Dehak在實(shí)驗(yàn)中發(fā)現(xiàn),JFA算法[32]假設(shè)本征信道空間是利用說(shuō)話人無(wú)關(guān)的信道信息估計(jì)得到,但實(shí)際中部分說(shuō)話人相關(guān)的信息也會(huì)泄露至本征信道空間之中,即JFA算法雖然假設(shè)利用本征音空間和本征信道空間來(lái)區(qū)分說(shuō)話人信息和信道信息,但是無(wú)法有效分離兩個(gè)空間。因此,Dehak不劃分征音信道空間和本征音空間,并使用一個(gè)全局差異(TotalVariability)空間來(lái)統(tǒng)一描述說(shuō)話人信息和信道信息,并一個(gè)全局差異因子(i-vector)描述說(shuō)話人因子和信道因子[4]。在i-vector說(shuō)話人確認(rèn)系統(tǒng)中,說(shuō)話人超矢量被分解為:

    公式中m表示非特定說(shuō)話人的超矢量;?是低秩的全局差異空間;?是全局差異因子,也稱(chēng)為身份矢量,即i-vector。

    在i-vector方法中,說(shuō)話人信息和信道信息都包含在全局差異空間中,為了提高i-vector對(duì)說(shuō)話人表征的準(zhǔn)確度,需要引入信道補(bǔ)償技術(shù)來(lái)進(jìn)一步消除信道因子的影響,因此,引入PLDA[33]對(duì)i-vector做進(jìn)一步的因子分析,即將i-vector空間進(jìn)一步分解為說(shuō)話人空間和信道空間,具體分解如下:

    其中,?表示說(shuō)話人的語(yǔ)音;?是所有訓(xùn)練i-vector的均值;?表示說(shuō)話人空間矩陣,描述說(shuō)話人相關(guān)特征;?是說(shuō)話人因子;?是信道空間矩陣,描述同一說(shuō)話人不同語(yǔ)音之間的差異;?是信道因子;?為噪聲因子。此外,?和?滿足?(0,1)分布。在測(cè)試階段,通過(guò)對(duì)數(shù)似然比來(lái)判斷兩條語(yǔ)音是否由同一說(shuō)話人空間的特征生成,其公式如下:

    其中ω1,ω2分別為注冊(cè)和測(cè)試階段的說(shuō)話人i-vector向量,H0假設(shè)兩段語(yǔ)音屬于不同說(shuō)話人,H1假設(shè)兩段語(yǔ)音屬于同一個(gè)說(shuō)話人。

4  基于深度學(xué)習(xí)的時(shí)說(shuō)話人確認(rèn)主流技術(shù)

    2013年前,主流的說(shuō)話人確認(rèn)技術(shù)都是基于統(tǒng)計(jì)模型方法。隨著深度學(xué)習(xí)方法在語(yǔ)音識(shí)別,圖像處理等領(lǐng)域取得突破性進(jìn)展,學(xué)者們開(kāi)始研究基于深度學(xué)習(xí)的說(shuō)話人確認(rèn)技術(shù)。其中主要分支包括:基于深度網(wǎng)絡(luò)特征學(xué)習(xí)的說(shuō)話人確認(rèn)方法,基于度量學(xué)習(xí)的說(shuō)話人確認(rèn)方法,基于多任務(wù)學(xué)習(xí)的說(shuō)話人確認(rèn)方法和端到端的說(shuō)話人確認(rèn)方法。

4.1基于深度網(wǎng)絡(luò)特征提取的方法

    基于深度網(wǎng)絡(luò)的特征學(xué)習(xí)方法,利用復(fù)雜非線性結(jié)構(gòu)賦予的特征提取能力,能自動(dòng)對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行特征分析,提取出更高層、更抽象的說(shuō)話人表征。

    2014年,谷歌的研究員Ehsan等人[34]提出了基于DNN(DeepNeuralNetworks,DNN)結(jié)構(gòu)的說(shuō)話人確認(rèn)算法,選取最后一層隱藏層激活后的輸出作為說(shuō)話人幀級(jí)別特征(frame-levelfeatures);一段語(yǔ)音所有幀級(jí)別特征取平均后得到該段語(yǔ)音的句子級(jí)特征(utterance-levelfeatures),稱(chēng)之為d-vector;2015年,Chen等人[35]發(fā)現(xiàn)輸入層到DNN第一個(gè)隱藏層間存在權(quán)值矩陣過(guò)大的問(wèn)題,將其可視化后,發(fā)現(xiàn)存在大量的零值,而非零權(quán)值則存在聚集效應(yīng),針對(duì)這一問(wèn)題,提出了使用局部連接和卷積網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)代替全連接的方法,新網(wǎng)絡(luò)的參數(shù)量下降了30%,且性能僅有4%的損失,此外,在同樣多的參數(shù)情況下,新網(wǎng)絡(luò)的EER分別提高了8%和10%;2017年,清華大學(xué)的Wang[36]提出了一種CNN和TDNN混合的特征提取網(wǎng)絡(luò),輸入為語(yǔ)譜圖,輸出則是具有可分性的說(shuō)話人表征,由于通過(guò)語(yǔ)譜圖可以直接獲取句子級(jí)別的特征,因此網(wǎng)絡(luò)性能具有較大的提升。2018年,Li等人[37]發(fā)現(xiàn)在基于DNN的特征傳統(tǒng)提取結(jié)構(gòu)中,由于使用了含有參數(shù)的softmax層,可能導(dǎo)致部分說(shuō)話人信息“泄漏”到了隱層與softmax層連接的權(quán)重參數(shù)中,導(dǎo)致由最后一層網(wǎng)絡(luò)節(jié)點(diǎn)所表示的深度特征不完備,進(jìn)而使得準(zhǔn)確率較低,因此作者改進(jìn)了損失函數(shù),使得新的損失函數(shù)不含額外參數(shù),說(shuō)話人全部信息表征均在網(wǎng)絡(luò)最后一層輸出;同年約翰斯霍普金斯大學(xué)的Povey[30],提出基于DNN的x-vector說(shuō)話人確認(rèn)系統(tǒng),該系統(tǒng)將語(yǔ)音特征提取過(guò)程分為幀級(jí)(frame-level)和段級(jí)(segment-level),并使用統(tǒng)計(jì)池化層連接兩級(jí)特征。同年P(guān)ovey[38]發(fā)現(xiàn)使用數(shù)據(jù)增強(qiáng),在原始語(yǔ)音數(shù)據(jù)中以一定比例加入噪聲、混響、人聲等干擾因素,使得網(wǎng)絡(luò)能夠從帶噪數(shù)據(jù)中提煉出有效信息,進(jìn)而提高說(shuō)話人確認(rèn)系統(tǒng)的性能。

4.2基于度量學(xué)習(xí)的方法

    基于度量學(xué)習(xí)的方法著眼于設(shè)計(jì)更適合說(shuō)話人確認(rèn)任務(wù)的目標(biāo)函數(shù),使得特征提取網(wǎng)絡(luò)通過(guò)新的目標(biāo)函數(shù)能學(xué)習(xí)到具有較小類(lèi)內(nèi)距離、較大類(lèi)類(lèi)距離的特征。

    2017年,百度提出了DeepSpeaker[39]系統(tǒng),其使用人臉識(shí)別中廣泛應(yīng)用的tripletloss作為損失函數(shù),模型訓(xùn)練時(shí)先提取同一說(shuō)話人兩段語(yǔ)音的表征,再提取不同說(shuō)話人語(yǔ)音的表征,目標(biāo)是令同一說(shuō)話人表征之間的余弦相似度高于不同說(shuō)話人之間的余弦相似度。在文本無(wú)關(guān)的數(shù)據(jù)上,EER相比基于DNN的方法降低了50%;2018年,紐約大學(xué)的Salehghaffari[40]提出了使用Simaese結(jié)構(gòu),即使用contrastiveloss作為損失函數(shù),其設(shè)計(jì)的基于CNN的說(shuō)話人確認(rèn)網(wǎng)絡(luò)較i-vector系統(tǒng)降低了近10%的EER。

4.3基于多任務(wù)學(xué)習(xí)的方法

    由于不同語(yǔ)音任務(wù)之間存在一定的相似性(如關(guān)鍵詞檢測(cè)與說(shuō)話人確認(rèn),語(yǔ)音分離與語(yǔ)音增強(qiáng)),研究者們嘗 試通過(guò)在相關(guān)任務(wù)中共享信息,使得模型在說(shuō)話人確認(rèn)任務(wù)上具有更好的泛化能力,進(jìn)而提高說(shuō)話人確認(rèn)系統(tǒng)的泛化能力。

    2018年清華大學(xué)的Ding等人[41]將圖像生成領(lǐng)域中的TripletGAN遷移到了說(shuō)話人確認(rèn)領(lǐng)域,運(yùn)用多任務(wù)學(xué)習(xí)的思想讓網(wǎng)絡(luò)同時(shí)進(jìn)行說(shuō)話人確認(rèn)和語(yǔ)音合成兩個(gè)任務(wù),使用生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)作為數(shù)據(jù)生成器,生成更多的語(yǔ)音數(shù)據(jù)作為說(shuō)話人確認(rèn)網(wǎng)絡(luò)的輸入,使其學(xué)習(xí)到更具泛化能力的說(shuō)話人表征,相比tripletloss網(wǎng)絡(luò)性能有較大的提升;同年,Novoselov等人[42],將說(shuō)話人確認(rèn)任務(wù)和數(shù)字識(shí)別任務(wù)相結(jié)合,使得網(wǎng)絡(luò)最后一層同時(shí)輸出說(shuō)話人辨認(rèn)和語(yǔ)音數(shù)字識(shí)別結(jié)果,在RSR2015數(shù)據(jù)庫(kù)上其相比基準(zhǔn)算法有近50%的提升;Dey等人[43]則通過(guò)數(shù)字辨認(rèn)和說(shuō)話人確認(rèn)的多任務(wù)學(xué)習(xí),使網(wǎng)絡(luò)能聯(lián)合優(yōu)化各個(gè)問(wèn)題,并采用tripletloss作為目標(biāo)函數(shù),在RSR數(shù)據(jù)庫(kù)上較i-vector方法提升了43%。

4.4端到端的說(shuō)話人確認(rèn)

    端到端的說(shuō)話人確認(rèn)系統(tǒng),輸入為不同說(shuō)話人的語(yǔ)音信號(hào),輸出即為說(shuō)話人確認(rèn)結(jié)果。端到端的網(wǎng)絡(luò)通常包含大量參數(shù),相比其它基于深度學(xué)習(xí)的說(shuō)話人確認(rèn)方法需要較多的訓(xùn)練與測(cè)試數(shù)據(jù)。

    2016年,Google的Heigold等人[44]提出了端到端說(shuō)話人確認(rèn)系統(tǒng),其包含兩個(gè)網(wǎng)絡(luò):預(yù)先訓(xùn)練好的特征提取網(wǎng)絡(luò)和用于決策打分的判決網(wǎng)絡(luò)。訓(xùn)練階段,首先利用預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò)獲取語(yǔ)音幀級(jí)特征,取平均后得到句子級(jí)別特征并與其它語(yǔ)句提取出的特征計(jì)算余弦相似度;然后將相似度輸入邏輯回歸層中,其中僅包含權(quán)重變量和偏置變量?jī)蓚€(gè)標(biāo)量參數(shù),最終邏輯回歸層輸出是否為同一說(shuō)話人;注冊(cè)階段,獲取輸入語(yǔ)音的特征,再次訓(xùn)練整個(gè)網(wǎng)絡(luò),訓(xùn)練中僅改變邏輯回歸層的偏置參數(shù),其他參數(shù)保持不變;驗(yàn)證階段,輸入待驗(yàn)證的語(yǔ)音,邏輯回歸層直接輸出判決結(jié)果。2016年微軟的Zhang[45]發(fā)現(xiàn)靜音幀信號(hào)對(duì)句級(jí)別特征的多余貢獻(xiàn)會(huì)弱化其表征能力,因此提出使用注意力機(jī)制,引入兩個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò),一個(gè)用于獲取每一幀語(yǔ)音的音素特征,另一個(gè)則判斷當(dāng)前詞是否為三音素組,結(jié)合兩個(gè)網(wǎng)絡(luò)輸出賦予每一幀信號(hào)不同權(quán)重,加權(quán)合成句級(jí)別特征。2017年Google的Chowdhury改進(jìn)了注意力機(jī)制[46],權(quán)重的獲取不再依賴(lài)預(yù)先訓(xùn)練的輔助網(wǎng)絡(luò),而是直接對(duì)幀級(jí)別特征進(jìn)行非線性變換學(xué)習(xí)權(quán)重參數(shù),這樣極大地減少了網(wǎng)絡(luò)的復(fù)雜程度;Google的Li[47]提出用領(lǐng)域自適應(yīng)的方法,在端到端的說(shuō)話人確認(rèn)任務(wù)中利用大語(yǔ)料數(shù)據(jù)集輔助小語(yǔ)料數(shù)據(jù)集,同時(shí)針對(duì)文本相關(guān)和文本無(wú)關(guān)兩種場(chǎng)景分別設(shè)計(jì)了兩類(lèi)不同的損失函數(shù),使得網(wǎng)絡(luò)訓(xùn)練時(shí)間減少了60%,準(zhǔn)確率提高了10%。

5  總結(jié)與展望

    本文重點(diǎn)介紹了面向智能語(yǔ)音控制場(chǎng)景下的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù),綜述了基本概念,分析了短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)面臨的挑戰(zhàn),并從特征提取和短語(yǔ)音建模兩個(gè)角度介紹了主流方法,最后介紹了基于深度學(xué)習(xí)的說(shuō)話人確認(rèn)技術(shù)發(fā)展現(xiàn)狀。

    相比于基于傳統(tǒng)機(jī)器學(xué)習(xí)的說(shuō)話人確認(rèn)技術(shù),基于深度學(xué)習(xí)的短語(yǔ)音說(shuō)話人確認(rèn)技術(shù)性能更佳,這得益于深度網(wǎng)絡(luò)具有強(qiáng)大的特征提取能力。但是,我們也看到,基于深度學(xué)習(xí)的方法需要大量的標(biāo)注訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行模型訓(xùn)練,這限制了基于深度學(xué)習(xí)的說(shuō)話人確認(rèn)模型的泛化以及應(yīng)用推廣。因此采用遷移學(xué)習(xí)方法將基于大語(yǔ)料數(shù)據(jù)庫(kù)訓(xùn)練獲得的說(shuō)話人模型遷移到基于小語(yǔ)料數(shù)據(jù)庫(kù)的說(shuō)話人模型、有效地提取短語(yǔ)音中更具區(qū)分性的特征以及設(shè)計(jì)更適合短語(yǔ)音說(shuō)話人確認(rèn)任務(wù)的目標(biāo)函數(shù)等是未來(lái)重點(diǎn)的研究方向。

參考文獻(xiàn)

[1]HansenJHL,HasanT.SpeakerRecognitionbyMachinesandHumans:Atutorialreview[J].IEEESignalProcessingMagazine,2015,32(6):74-99.

[2]鄭方,李藍(lán)天,張慧,等.聲紋識(shí)別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.

[3]SchefferN,FerrerL,GraciarenaM,etal.TheSRINIST2010speakerrecognitionevaluationsystem[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2011:5292-5295.

[4]DehakN,KennyPJ,DehakR,etal.Front-EndFactorAnalysisforSpeakerVerification[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2011,19(4):788-798.

[5]MarkelJ,OshikaB,GrayA.Long-termfeatureaveragingforspeakerrecognition[J].IEEETransactionsonAcousticsSpeech&SignalProcessing,1977,25(4):330-337.

[6]K.Li,E.Wrench.Anapproachtotext-independentspeakerrecognitionwithshortutterances[C]//Acoustics,Speech,andSignalProcessing,IEEEInternationalConferenceonICASSP.IEEE,1983:555-558.

[7]ReynoldsDA,QuatieriTF,DunnRB.SpeakerVerificationUsingAdaptedGaussianMixtureModels[C]//DigitalSignalProcessing.2000:19–41.

[8]KennyP.Bayesianspeakerverificationwithheavytailedpriors[C]//Proc.OdysseySpeakerandLanguageRecogntionWorkshop,Brno,CzechRepublic.2010.

[9]PoddarA,SahidullahM,SahaG.Speakerverificationwithshortutterances:areviewofchallenges,trendsandopportunities[J].IetBiometrics,2018,7(2):91-101.

[10]LarcherA,KongAL,MaB,etal.Text-dependentspeakerverification:Classifiers,databasesandRSR2015[J].SpeechCommunication,2014,60(3):56-77.

[11]DasRK,PrasannaSRM.SpeakerVerificationfromShortUtterancePerspective:AReview[J].IeteTechnicalReview,2017(1):1-19.

[12]V.Hautamäki,Y.-C.Cheng,P.Rajan,etal.Minimaxi-vectorextractorforshortdurationspeakerverification[J].2013.

[13]PoorjamAH,SaeidiR,KinnunenT,etal.IncorporatinguncertaintyasaQualityMeasureinI-VectorBasedLanguageRecognition[C]//TheSpeakerandLanguageRecognitionWorkshop.2016.

[14]KanagasundaramA,VogtR,DeanD,etal.i-vectorBasedSpeakerRecognitiononShortUtterances[C]//INTERSPEECH.DBLP,2011.

[15]HosseinzadehD,KrishnanS.OntheUseofComplementarySpectralFeaturesforSpeakerRecognition[J].EurasipJournalonAdvancesinSignalProcessing,2007,2008(1):1-10.

[16]MakhoulJ.Linearprediction:atutorialreview.ProcIEEE63:561-580[J].ProceedingsoftheIEEE,1975,63(4):561-580.

[17]HermanskyH.Perceptuallinearpredictive(PLP)analysisofspeech.[J].JournaloftheAcousticalSocietyofAmerica,1990,87(4):1738-1752.

[18]HuangX,AceroA.SpokenLanguageProcessing:AGuidetoTheory,Algorithm,andSystemDevelopment[M].PrenticeHallPTR,2001.

[19]TodiscoM,DelgadoH,EvansN.ArticulationratefilteringofCQCCfeaturesforautomaticspeakerverification[C]//INTERSPEECH.2018.

[20]LeungKY,MakMW,SiuMH,etal.Adaptivearticulatoryfeature-basedconditionalpronunciationmodelingforspeakerverification[J].SpeechCommunication,2006,48(1):71-84.

[21]KennyP,GuptaV,StafylakisT,etal.DeepneuralnetworksforextractingBaum-Welchstatisticsforspeakerrecognition[C]//Odyssey.2014.

[22]FuT,QianY,LiuY,etal.Tandemdeepfeaturesfortext-dependentspeakerverification[C]//ConferenceoftheInternationalSpeechCommunicationAssociation.InternationalSpeechCommunicationAssociation(ISCA),2014:747-753.

[23]SainathTN,KingsburyB,RamabhadranB.Auto-encoderbottleneckfeaturesusingdeepbeliefnetworks[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2012:4153-4156.

[24]KennyP,StafylakisT,OuelletP,etal.PLDAforspeakerverificationwithutterancesofarbitraryduration[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2013:7649-7653.

[25]JelilS,DasRK,SinhaR,etal.SpeakerVerificationUsingGaussianPosteriorgramsonFixedPhraseShortUtterances[C]//INTERSPEECH.2015.

[26]DeyS,MotlicekP,MadikeriS,etal.Exploitingsequenceinformationfortext-dependentSpeakerVerification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2017:5370-5374.

[27]KanagasundaramA,DeanD,Gonzalez-DominguezJ,etal.ImprovingShortUtterancebasedI-vectorSpeakerRecognitionusingSourceandUtterance-DurationNormalizationTechniques[C]//Proceed.ofINTERSPEECH.2013:3395-3400.

[28]KanagasundaramA,DeanD,SridharanS,etal.Improvingshortutterancei-vectorspeakerverificationusingutterancevariancemodellingandcompensationtechniques[J].SpeechCommunication,2014,59(2):69-82.

[29]HasanT,SaeidiR,HansenJHL,etal.Durationmismatchcompensationfori-vectorbasedspeakerrecognitionsystems[J].2013:7663-7667.

[30]SnyderD,GhahremaniP,PoveyD,etal.Deepneuralnetwork-basedspeakerembeddingsforend-to-endspeakerverification[C]//SpokenLanguageTechnologyWorkshop.IEEE,2017:165-170.

[31]HongQ,LiL,WanL,etal.TransferLearningforSpeakerVerificationonShortUtterances[C]//INTERSPEECH.2016:1848-1852.

[32]KennyP.Jointfactoranalysisofspeakerandsessionvariability:Theoryandalgorithms[J].2005.

[33]SenoussaouiM,KennyP,BrümmerN,etal.MixtureofPLDAModelsini-vectorSpaceforGender-IndependentSpeakerRecognition[C]//INTERSPEECH2011,ConferenceoftheInternationalSpeechCommunicationAssociation,Florence,Italy,August.DBLP,2011:25-28.

[34]VarianiE,LeiX,McdermottE,etal.Deepneuralnetworksforsmallfootprinttext-dependentspeakerverification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2014:4052-4056.

[35]ChenY,Lopez-MorenoI,SainathTN,etal.Locally-connectedandconvolutionalneuralnetworksforsmallfootprintspeakerrecognition[C]//SixteenthAnnualConferenceoftheInternationalSpeechCommunicationAssociation.2015.

[36]LiL,ChenY,ShiY,etal.DeepSpeakerFeatureLearningforText-independentSpeakerVerification[J].2017:1542-1546.

[37]LiL,TangZ,WangD,etal.Full-infoTrainingforDeepSpeakerFeatureLearning[J].2018.

[38]SnyderD,Garcia-RomeroD,SellG,etal.X-vectors:RobustDNNembeddingsforspeakerrecognition[J].ICASSP,Calgary,2018.

[39]LiC,MaX,JiangB,etal.DeepSpeaker:anEnd-to-EndNeuralSpeakerEmbeddingSystem[J].2017.

[40]HosseinSalehghaffari,etal.SpeakerVeri?cationusingConvolutionalNeuralNetworks[J].2018

[41]DingW,HeL.MTGAN:SpeakerVerificationthroughMultitaskingTripletGenerativeAdversarialNetworks[J].2018.

[42]NovoselovS,KudashevO,SchemelininV,etal.DeepCNNbasedfeatureextractorfortext-promptedspeakerrecognition[J].2018.

[43]SDey,TKoshinaka,PMotlicek,SMadikeri,etal,DNNbasedspeakerembeddingusingcontentinformationfortext-dependentspeakerverification[J].2018

[44]HeigoldG,MorenoI,BengioS,etal.End-to-endtext-dependentspeakerverification[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2016IEEEInternationalConferenceon.IEEE,2016:5115-5119.

[45]ZhangSX,ChenZ,ZhaoY,etal.End-to-endattentionbasedtext-dependentspeakerverification[C]//SpokenLanguageTechnologyWorkshop(SLT),2016IEEE.IEEE,2016:171-178.

[46]ChowdhuryFA,WangQ,MorenoIL,etal.Attention-BasedModelsforText-DependentSpeakerVerification[J].arXivpreprintarXiv:1710.10470,2017.

[47]WanL,WangQ,PapirA,etal.Generalizedend-to-endlossforspeakerverification[J].arXivpreprintarXiv:1710.10467,2017.

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國(guó)傳動(dòng)網(wǎng)

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2018年第四期

2018年第四期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫(xiě)郵件地址,訂閱更多資訊:

撥打電話咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運(yùn)動(dòng)控制

    2023年第1期