近年來,機(jī)器翻譯(英文Machine
Translation,簡(jiǎn)稱MT)取得了長(zhǎng)足的進(jìn)步,并獲得一些可喜的成果。作為人工智能領(lǐng)域的關(guān)鍵核心技術(shù),MT普遍受到人們的關(guān)注和專家的研究。然而,目前MT存在譯文質(zhì)量整體不高、譯后修改工作量較大等問題;這些問題有待解決。
MT技術(shù)的發(fā)展一直與計(jì)算機(jī)科學(xué)、語言學(xué)、心理學(xué)、控制論、信息論等學(xué)科的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結(jié)合語言學(xué)專家知識(shí)的規(guī)則翻譯,再到基于語料庫(kù)的統(tǒng)計(jì)翻譯;隨著計(jì)算機(jī)算力的提升和多語言信息的爆發(fā)式增長(zhǎng),MT技術(shù)逐漸走出象牙塔,開始為普通用戶提供實(shí)時(shí)便捷的翻譯服務(wù)。
目前主流的MT技術(shù)是神經(jīng)網(wǎng)絡(luò)翻譯(NMT);它是最近幾年才提出來的一種翻譯方法。相比于傳統(tǒng)的翻譯方法而言,NMT能夠訓(xùn)練一張能夠從一個(gè)序列映射到另一個(gè)序列的神經(jīng)網(wǎng)絡(luò),輸出的可以是一個(gè)變長(zhǎng)的序列,這在翻譯方面能夠獲得比較好的表現(xiàn)??梢哉f,NMT技術(shù)已經(jīng)成為當(dāng)下研究的關(guān)鍵和熱點(diǎn)。
目前市場(chǎng)上MT技術(shù)相對(duì)成熟的是谷歌翻譯和微軟翻譯;它們?cè)瓉肀澈蟮募夹g(shù)即為基于統(tǒng)計(jì)的翻譯方法,基本運(yùn)行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容,將其作為語料庫(kù),然后由計(jì)算機(jī)自動(dòng)選取最為常見的詞與詞的對(duì)應(yīng)關(guān)系,最后給出翻譯結(jié)果。而現(xiàn)在谷歌和微軟采用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的原理和框架,從而使MT技術(shù)有了很大的進(jìn)步。
然而,無論是哪種翻譯方法,目前影響MT發(fā)展的最大因素在于譯文質(zhì)量。就MT已有的成就來看,譯文質(zhì)量離理想目標(biāo)(達(dá)到高級(jí)譯員的翻譯水準(zhǔn))仍相差甚遠(yuǎn)。眾所周知,人工翻譯(簡(jiǎn)稱“人譯”)的過程是人工譯者集理解、分析、選擇及再創(chuàng)造為一體的綜合操作,是大腦系統(tǒng)思維活動(dòng)的過程。
MT的譯文質(zhì)量要達(dá)到人譯的水準(zhǔn),就必須解開大腦處理語言信息之謎。其實(shí)早在20世紀(jì)90年代初,中國(guó)科學(xué)家及未來學(xué)家周海中教授就指出:在人類尚未明了大腦是如何進(jìn)行語言的模糊識(shí)別和邏輯判斷的情況下,MT要想達(dá)到“信、達(dá)、雅”的程度是不可能的。他的這一預(yù)言今天已經(jīng)基本成真,很可能成為今后MT發(fā)展的現(xiàn)實(shí)。
近年實(shí)施的歐洲大腦計(jì)劃、美國(guó)大腦計(jì)劃、中國(guó)大腦計(jì)劃、日本大腦計(jì)劃等都旨在利用計(jì)算機(jī)模擬人類大腦, 其核心內(nèi)容是神經(jīng)信息學(xué)。這一新興前沿學(xué)科的研究成果將有助于人們了解大腦是如何進(jìn)行自然語言處理的,并有望為人工智能領(lǐng)域,尤其是MT技術(shù)的進(jìn)展鋪平道路。
MT要達(dá)到人譯的程度還有很長(zhǎng)很難的路要走,要解決這一人工智能領(lǐng)域的關(guān)鍵核心技術(shù)還有待未來科技的發(fā)展,尤其是大腦科學(xué)的重大突破。目前人們只能將MT與人譯結(jié)合起來,相輔相成;這既能節(jié)省翻譯的時(shí)間和成本,又能翻譯出高質(zhì)量的譯文。