美女视频黄频,国内精品久久久久老司机

語(yǔ)音識(shí)別是人工智能的一項(xiàng)十分有趣的問(wèn)題，想想看，人們的語(yǔ)音是多么復(fù)雜，不同國(guó)家、民族的人，說(shuō)不同的國(guó)家和民族的語(yǔ)言，不同的人，口音不一樣，例如中國(guó)還有許多方言，語(yǔ)音也不一樣。一個(gè)本事大的人，可能懂七、八種語(yǔ)言，也能聽(tīng)懂男、女、小孩等等不同人、甚至不同方言的語(yǔ)言。但是要設(shè)計(jì)一個(gè)機(jī)器人能聽(tīng)懂七八種語(yǔ)言，甚至鄉(xiāng)土的方言（例如在民航的接待處服務(wù)的機(jī)器人），這任務(wù)是十分困難的。但是我們可以期待，也許不久的將來(lái)就會(huì)實(shí)現(xiàn)。

再說(shuō)，要在一篇科普文章中說(shuō)清語(yǔ)音識(shí)別的技術(shù)，也有很大的難度。因?yàn)樗玫搅烁叩葦?shù)學(xué)中的傅里葉變換的技術(shù)。也就是要用到“時(shí)域”和“頻域”的兩個(gè)概念，才容易講清楚。那么什么是頻域、什么是時(shí)域？也需要花點(diǎn)筆墨來(lái)介紹。

簡(jiǎn)單地講，例如50周波的正弦波，在時(shí)域的圖像上表示是一個(gè)連續(xù)上下波動(dòng)的曲線，如果轉(zhuǎn)換到“頻域”，就是在頻率軸（橫軸）上的50處一個(gè)有幅度的點(diǎn)這不是很簡(jiǎn)單嗎！

在上一篇“語(yǔ)音合成”一文中，已經(jīng)介紹了人類(lèi)語(yǔ)音的一些特征（例如說(shuō)聲母是相當(dāng)于高頻的噪聲、韻母相當(dāng)于周期重復(fù)的非規(guī)則波，聲調(diào)是韻母的聲高（頻率）有變化的波等等），這是語(yǔ)音的時(shí)域形態(tài)。我們也說(shuō)過(guò)，如果用示波器觀看一般人說(shuō)話的語(yǔ)音波形，是十分復(fù)雜，要研究它簡(jiǎn)直無(wú)從下手。但是經(jīng)傅里葉轉(zhuǎn)換到頻域，就發(fā)現(xiàn)圖形要簡(jiǎn)單得多了，語(yǔ)音波的頻率表現(xiàn)在若干個(gè)頻率點(diǎn)上有數(shù)值。比如男聲低些，女聲要高一些。小孩子的聲頻更高些。除此之外，在更高的頻率域處有數(shù)值，那是噪聲域，相當(dāng)于聲母的部分，而在較低的頻率點(diǎn)上也有一組數(shù)值，是韻母域，這些都表示的是不同說(shuō)話人的口腔參數(shù)，不同人的口型、舌頭形狀不一樣，這組參數(shù)也不一樣。所以，在頻域分析語(yǔ)音：是聲母、韻母、是幾聲調(diào)、是什么人說(shuō)的等等，就容易多了。也由此可以想到，人的天賦智能具備了多么復(fù)雜的本領(lǐng)，我們的腦子里事先已經(jīng)存儲(chǔ)好了各種模板數(shù)據(jù)（屬于頻域數(shù)據(jù)，）包括各個(gè)漢字的讀音、某些已認(rèn)識(shí)人的聲音特征數(shù)據(jù)，甚至風(fēng)聲、雨聲、鳥(niǎo)的鳴叫聲等等，因此，人就能判別任何時(shí)間聽(tīng)到的聲音是什么聲音、代表什么文字，這種人所具備的智能也是幾千萬(wàn)年人類(lèi)進(jìn)化而得來(lái)的。

設(shè)計(jì)機(jī)器的語(yǔ)音識(shí)別，先要在計(jì)算機(jī)里先存放好標(biāo)準(zhǔn)的語(yǔ)音參數(shù)，稱(chēng)為“模板”（如果要將識(shí)別的語(yǔ)音轉(zhuǎn)換成文字，計(jì)算機(jī)里也先存放好了所有漢字的語(yǔ)音參數(shù)（可能還分男聲和女聲的數(shù)據(jù)庫(kù)，存儲(chǔ)的數(shù)據(jù)是對(duì)應(yīng)某種語(yǔ)音的頻域參數(shù)，不可能是時(shí)域的波形），這個(gè)數(shù)據(jù)庫(kù)的建立也可稱(chēng)為機(jī)器的訓(xùn)練過(guò)程。實(shí)際操作語(yǔ)音識(shí)別時(shí)，由麥克風(fēng)讀入待識(shí)別的語(yǔ)音，將輸入數(shù)據(jù)先轉(zhuǎn)換成頻域數(shù)據(jù)，再和標(biāo)準(zhǔn)數(shù)據(jù)作比較，取參數(shù)最接近的作為識(shí)別結(jié)果，再輸出，輸出的是漢字（或某一國(guó)家的文字。）語(yǔ)音轉(zhuǎn)換成文字還有一個(gè)同音字區(qū)分的問(wèn)題，大多數(shù)漢語(yǔ)的一個(gè)讀音對(duì)應(yīng)多個(gè)漢字，有的發(fā)音對(duì)應(yīng)許多個(gè)漢字，甚至上百個(gè)漢字（如音節(jié)“ji”對(duì)應(yīng)的漢字有100多個(gè)）要去分辨某個(gè)發(fā)音是什么漢字，必須采用上下文的辦法，就是看這個(gè)讀音的前或后跟隨的是什么漢字(或讀音)，是否能組成詞。這些詞組都事先在計(jì)算機(jī)中存好，經(jīng)由匹配對(duì)比成功的詞來(lái)決定該選定的漢字，有時(shí)候不是任何讀音都可能找到能匹配的上下文，就可能要從語(yǔ)義來(lái)判斷。這就更復(fù)雜了。

如果要設(shè)計(jì)的系統(tǒng)是要尋找說(shuō)話人是誰(shuí)，而不是關(guān)于具體說(shuō)的什么，那就只要對(duì)比頻域參數(shù)就可以了。同樣一句話，不同人說(shuō)的，波形不同，頻域中的特征數(shù)據(jù)也不同。

平時(shí)我們的耳朵聽(tīng)取外界的聲音有很強(qiáng)的濾波功能，在噪聲很大的情況下能濾除噪音，辯認(rèn)出需要聲音(如語(yǔ)音)。聾人用的助聽(tīng)器，如果僅僅是把聲波放大，就會(huì)連同噪聲一起放大，聽(tīng)起來(lái)十分費(fèi)勁。高級(jí)助聽(tīng)器就有濾除噪音的功能，因而售價(jià)就很貴了，因?yàn)槠渲幸灿昧诵盘?hào)處理技術(shù)。

順便說(shuō)一個(gè)故事，是說(shuō)明傅里葉變換、信號(hào)處理的本領(lǐng)的。這是上世紀(jì)80年代初，美國(guó)麻省理工學(xué)院的奧本海姆教授來(lái)清華講學(xué)（我曾擔(dān)任他的講課翻譯）演示過(guò)的一段語(yǔ)音處理的片段：

一段帕瓦羅蒂的演唱，有場(chǎng)面龐大的樂(lè)隊(duì)伴奏，當(dāng)然很好聽(tīng)。奧本海姆教授演示用了信號(hào)處理技術(shù)，竟然可以把樂(lè)隊(duì)伴奏的聲音全部過(guò)濾掉，只剩下了帕瓦羅蒂的唱聲，這就可以單獨(dú)欣賞他的純真的歌聲，這里面用到了復(fù)雜的濾波技術(shù)完全是傅里葉變換的功勞。（他的歌唱頻譜范圍和樂(lè)隊(duì)演奏聲音的頻譜范圍是不同的。將頻域里的樂(lè)隊(duì)聲的頻譜信號(hào)刪除，再還原到時(shí)域就只剩下了人的歌唱聲了。）可見(jiàn)，信號(hào)處理的本領(lǐng)之大了。

語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)最近幾十年的研究發(fā)展，已經(jīng)十分成熟，能聽(tīng)人語(yǔ)音發(fā)出命令而做事的機(jī)器人本領(lǐng)也愈來(lái)愈大了。我們清華人在其中作了貢獻(xiàn)，也值得自豪！

來(lái)源：中國(guó)經(jīng)濟(jì)網(wǎng)