自動翻譯5年後媲美同傳?
2020/07/13
通過電腦完成筆譯和口譯的自動翻譯(又稱機器翻譯)的性能一直在提高。巧妙運用人工智慧(AI)的第3代翻譯演算法已經問世,根據每個用戶設定翻譯模式的機制也取得進展,翻譯的準確度顯著提高。5年後有望實現媲美同步翻譯的性能。
隨著自動翻譯消除語言的障礙,與外籍勞動者等海外人才溝通、跨境平臺業務的拓展都將更加順暢。
2016年,谷歌在網上公開了採用深度學習的「神經機器翻譯(NMT)」。在同一時期,微軟和日本情報通信研究機構(NICT)也採用了神經機器翻譯。此前主流的統計機器翻譯採用以大量數據生成的統計模型,與之相比,神經機器翻譯的準確度飛躍式提高。
初期的神經機器翻譯採用了屬於深度學習之一的「遞歸神經網路(RNN)」。後來問世的是被稱為「Transformer」的第2代演算法,自2019年前後開始普及。
Transformer納入了名為「注意力機制」的AI機制,在確定一個單詞的翻譯結果時,會考慮應關注其前後的哪些單詞。
2017年涉足AI翻譯服務的德國初創企業開發的「DeepL」也採用第2代神經機器翻譯。雖然沒有官方的比較數據,但DeepL被認為在日英互譯方面達到了媲美谷歌最新版的頂尖水準準確度。
![]() |
日本情報通信研究機構在繼Transformer之後的第3代神經機器翻譯演算法開發上拿出了時間表,最快將在2020年秋季引進。新技術的詳細情況沒有透露,但研究員隅田英一郎表示,「和Transformer相比,獲得的譯文和人工翻譯範例的偏差更小更自然,學習數據量也有所減少」。新一代神經機器翻譯的研究在海外也取得進展,隅田表示「主要的參與企業或將在明年之前改為新演算法」。
要提高自動翻譯的準確度,與改進AI演算法同樣重要的是大量收集讓AI學習的日英對譯數據等。
日本情報通信研究機構2017年推出了「翻譯銀行」業務,在翻譯系統使用條件方面提供優待,作為交換要求企業等提供對譯數據。截至目前,與豐田、藥企阿斯利康(AstraZeneca)、SMBC日興證券和日本交易所集團等超過70家企業與團體簽署了數據提供協議。目標是收集1億句規模的對譯數據。
不僅是按行業和領域製作翻譯系統,以企業和業務種類為單位優化翻譯系統的「訂製」服務也受到關注。谷歌免費提供通用的「谷歌翻譯」,另一方面,通過作為戰略領域的雲服務「AutoML」,積極拓展按用戶訂製翻譯功能的業務。
開發翻譯系統的日本Rozetta最近發佈了強化了訂製功能的翻譯系統「T-3MT」。通過自主開發的演算法提高了對歷史譯文進行再利用的「翻譯記憶體」功能。該公司首席執行官五石順一表示,「通過少量的數據學習,不僅可以訂製公司內部經常使用的單詞和用語,還可以訂製文體和表達方式」。
Rozetta與日本飛島建設合作開發出了內置上述翻譯功能的面向建設行業的穿戴式系統。該系統支援語音識別,在建設現場等,可以讓工作人員用外語接收指示,與外國勞動者邊溝通邊開展工作。
語音翻譯系統作為能在海外旅行目的地、外國患者增多的醫療機構等很多場合發揮作用的技術而備受關注。
在語音翻譯領域領跑的是日本情報通信研究機構,該機構開發出了可在智慧手機等設備上使用、支援31種語言的語音翻譯APP「VoiceTra」。該機構向企業進行技術轉移,日本Sourcenext的翻譯機「POCKETALK」等産品問世。日本警察廳也採用了情報通信研究機構的系統,全日本的警察將配備約5萬台終端。
美國蘋果宣佈,6月發佈的新一代作業系統「iOS14」中配備日語、英語、中文、阿拉伯語等多語言間的語音翻譯APP。據悉在沒有網路的地方也可以使用。
稱得上自動翻譯最終形態的是同步翻譯系統。同傳要在説話者發言的過程中判斷開始翻譯的時機以及考慮上下文等,需要具備交替傳譯所沒有的高超技術。2020年度,情報通信研究機構等參與制定的日本總務省「全球交流計劃2025」啟動,將用5年時間開發能達到實用水準的同傳系統。
日本經濟新聞(中文版:日經中文網)編輯委員 吉川和輝
版權聲明:日本經濟新聞社版權所有,未經授權不得轉載或部分複製,違者必究。