隨著重出江湖的“阿爾法圍棋”近日橫掃多位中日韓頂尖棋手,有人評價說,人腦斗不過機器的時代已經(jīng)來臨。不過,在語言理解方面,目前機器還遠(yuǎn)遠(yuǎn)斗不過人腦,但這種情況正在迅速發(fā)生改變。
語音識別技術(shù)突飛猛進或成人工智能下一個風(fēng)口
“嘿,Kuri!想一起玩嗎?”“嘿,Kuri!能講個故事嗎?”只要聽到叫自己的名字,身高半米、看上去胖嘟嘟的機器人Kuri就會睜開眼睛跑到你跟前,像小狗一般可愛。正在美國拉斯維加斯舉行的消費電子展上,這款黑白色的呆萌家用機器人讓媒體爭相報道。
“Kuri是一款社交機器人,您可以把它當(dāng)成家庭的一個成員,”研發(fā)這款機器人的初創(chuàng)企業(yè)梅菲爾德機器人公司首席執(zhí)行官邁克爾·畢比說。除了可以用手機應(yīng)用程序控制外,還能通過簡單的語言命令指揮它完成一些任務(wù),比如在家里自動巡邏、把小狗趕下沙發(fā)、與小孩一起玩耍、講故事、放音樂等等。
語音識別突飛猛進,達(dá)到了人耳的程度
據(jù)預(yù)測,到2020年,美國每10戶家庭中就有一戶將擁有家用機器人。這些機器人不僅能干家務(wù),更重要的是還能與人簡單交流,替人們排憂解悶。
隨著重出江湖的“阿爾法圍棋”近日橫掃多位中日韓頂尖棋手,有人評價說,人腦斗不過機器的時代已經(jīng)來臨。不過,在語言理解方面,目前機器還遠(yuǎn)遠(yuǎn)斗不過人腦,但這種情況正在迅速發(fā)生改變。
“電腦的下一個接口是語音,”展會主辦方美國消費技術(shù)協(xié)會首席經(jīng)濟學(xué)家肖恩·杜布拉瓦茨在記者會上斷言。他列出未來5大技術(shù)發(fā)展趨勢,語音交互排在第一位。
現(xiàn)在的智能手機和個人電腦依靠圖形用戶界面來實現(xiàn)人機交互。它最早可追溯到1981年施樂公司的“施樂之星”操作系統(tǒng)。3年后,蘋果公司“偷師”的Macintosh成為首個在商用領(lǐng)域取得成功的圖形用戶界面?zhèn)€人電腦。從命令行發(fā)展到圖形界面是人機交互方式的重大革命,助推了個人電腦迅速普及。
自那以后,隨著個人設(shè)備運算能力日益增強,各種應(yīng)用程序越來越多,圖形用戶界面也變得更復(fù)雜。與此同時,從2010年逐漸興起的可穿戴式設(shè)備以及其他一些非傳統(tǒng)設(shè)備,開始嘗試把最重要的運算功能通過無線連接交給手機或其他中樞設(shè)備。
許多人認(rèn)為,圖形用戶界面已經(jīng)接近極限。接下來,誰能把人類從紛繁復(fù)雜的窗口、工具欄以及菜單選項中解放出來,腦電波、眼神還是語音?10年前這三種方式?jīng)]有一個靠譜,今天語音似乎成了首選項。
語音識別研究已經(jīng)有好幾十年,但進展一直不盡如人意。微軟早在1994年就成立了研究團隊,但2006年研究人員在投資者面前演示時,電腦竟然把“mom”(媽媽)聽成了“aunt”(阿姨)?!霸缙诎姹镜恼Z音識別技術(shù)太糟糕了,”杜布拉瓦茨說。據(jù)他介紹,到2013年,哪怕口音再標(biāo)準(zhǔn)、背景噪音再小,語音識別的單詞錯誤率依然高達(dá)25%,即電腦每聽4個詞就會錯一個。
得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,近3年來語音識別突飛猛進,單詞錯誤率降到5%左右,達(dá)到了人耳的程度?!拔覀冊谶^去30個月所取得的語音識別進展比過去30年還要多,”杜布拉瓦茨說,“這就是為什么我認(rèn)為語音技術(shù)會出現(xiàn)爆發(fā)式增長?!?/p>
“動動嘴皮子”,就可以關(guān)燈、鎖門,甚至叫車
蘋果手機推出了語音助手Siri,微軟、谷歌和亞馬遜也相繼推出類似的語音助手。值得一提的是,約兩年前亞馬遜第一個把其語音助手“亞歷克薩”嵌入到“回聲”智能音箱中,作為智能家居的中樞控制音箱,讓人們多了一個“家庭事務(wù)助理”。有了“回聲”,人們“動動嘴皮子”就可以查信用卡賬單、關(guān)燈、鎖門,甚至叫車。
此后,谷歌推出了家用智能硬件“谷歌家庭”,三星和聯(lián)想等也準(zhǔn)備推出類似產(chǎn)品……一場由語音交互驅(qū)動的智能家居競賽正在進行之中。汽車廠商也開始加入進來,福特在展會上宣布跟亞馬遜合作,在車上安裝“亞歷克薩”,將來可由語音控制車內(nèi)播放音樂、閱讀新聞,快到家時打開車庫門和家中的照明、空調(diào)等。
杜布拉瓦茨說,到目前為止,全球估計已售出約500萬個語音助手,今年可能還會售出500萬個。
在中文語音識別方面,科大訊飛是佼佼者。在此次美國展會上,長虹就展出了基于科大訊飛技術(shù)的語音控制電視和空調(diào),并介紹說,2012年長虹就推出了語音控制電視,目前已經(jīng)升級到第三代,除了普通話,還能聽懂四川話、粵語等幾種方言。在演示中,長虹工作人員通過語音遙控器或安裝了相關(guān)軟件的手機,說出“長虹小白,我想看某某電視劇第幾集”,電視就直接開始播放相關(guān)劇集,并可以指揮快進、后退或直接跳到某個時間點開始播放。
中興通訊高級副總裁程立新在展會新品發(fā)布會上說,中興把語音交互視為未來手機發(fā)展的一個重要方向?!拔覀円矤款^成立了一個智慧語音聯(lián)盟,以打造一個好的生態(tài)圈。我們認(rèn)為未來智能手機的接口會有很多的、大的發(fā)展,語音的發(fā)展有可能會真正解放人類的雙手,”他說。
語音識別還要克服很多障礙,比如理解嘈雜背景下的語言指令、自動糾錯、理解同一詞語在不同情境下的語義等。但杜布拉瓦茨認(rèn)為,未來是樂觀的。
“顯然,語音(識別)跨過了拐點,正從理論走向現(xiàn)實,”他說,“人們開始考慮,如果它(語音識別)能表現(xiàn)得再好一點點的話,我們該怎樣使用它?!?/p>
更多資訊請關(guān)注機器視覺頻道