日本開發專業級同傳AI,準確無延時
2021/01/20
日本情報通信研究機構在預處理中採用按「語塊」(chunk,或稱:語義塊)斷句的方法,比以句子為單位斷句翻譯得更精準。專業的同步翻譯人員也使用這種方法。這樣可以保證翻譯準確度,並減少延時。
日本情報通信研究機構在開發中將使用大量的數據。該機構在2021年度末之前,將從同步翻譯人員等手中收集劃分語義的位置及其譯文的數據。2022年度將開發按照語義斷句並翻譯的AI。
與英譯日相比,日譯英的同步翻譯難度更高。因為斷句的預處理比較難。
在日語中,動詞及表示否定等的重要詞語出現在句尾,因此需要預讀,然後進行翻譯。而動詞等關鍵詞語在句子前半部分出現的英語等更好翻譯。在日語中,句子省略主語的情況也很多,AI要補充完整句子以後再翻譯,因此容易出錯。
為了防止誤譯,需要進行修正的技術。比如提前給AI提供演講內容相關數據,讓它進行學習,它就能夠讀懂後面要説的話,從而更準確地完成同步翻譯。
日本情報通信研究機構還將改進翻譯引擎。通過日英、英日及所有語言翻譯都使用的技術來控制翻譯準確度。如果這項性能不高,即使預處理速度再快、修正功能出色,也起不到作用。
日本情報通信研究機構的翻譯引擎除了市售的攜帶型翻譯機以外,還被松下、NTT docomo及NEC等的語音翻譯服務採用。該機構的研究員隅田英一郎自信地説「英日翻譯準確率換算成多益考試(TOEIC)分數的話,相當於900分左右」。
在提高翻譯準確率方面值得期待的是,得到美國特斯拉首席執行官(CEO)馬斯克等人資助的研究企業OpenAI在2020年6月公佈了語言AI「GPT-3」。這款AI可以寫出跟人水準接近的比較自然的文章。
GPT-3利用巨大的「大腦」學習大量文件,獲得了很強的能力。開發中使用的數據相當於數千億詞彙量。如果能在翻譯引擎中應用GPT-3的系統,就有可能大幅提高性能。
圍繞同步翻譯,全球的大型IT企業都在競爭,不過日本情報通信研究機構仍有勝算。隅田研究員指出「美國微軟、中國百度及美國谷歌都是以句子為單位進行斷句,以語塊斷句的方法尚未取得成果。都在同一水準上」。各公司都在下力氣開發的中英語同步翻譯也跟日本情報通信研究機構開發一樣,存在10秒左右的延時。
如果能實現日語翻成其他主要語言的同步翻譯,在國際上就會佔據優勢。
英語、中文及法語等使用人數較多的語言都是動詞跟在名詞後面的類型。佔到全球語言的約4成。其實,世界上有一半語言和日語一樣,把動詞放在句尾。同類型的語言之間更容易實現同步翻譯。如果在不同類型語言之間的同步翻譯方面,能開發出優異的技術,則有可能應用於9成的語言。
日本經濟新聞(中文版:日經中文版)大越優樹
版權聲明:日本經濟新聞社版權所有,未經授權不得轉載或部分複製,違者必究。報道評論
HotNews
・日本經濟新聞社選取亞洲有力企業為對象,編制並發布了日經Asia300指數和日經Asia300i指數(Nikkei Asia300 Investable Index)。在2023年12月29日之後將停止編制並發布日經Asia300指數。日經中文網至今刊登日經Asia300指數,自2023年12月12日起改為刊登日經Asia300i指數。