讀不懂考題的機器人,未來有可能取代翻譯工作嗎?

讀不懂考題的機器人,未來有可能取代翻譯工作嗎?
Photo Credit:AP/達志影像

我們想讓你知道的是

2011年,日本的國立情報學研究所曾經推動了一個用AI技術讓電腦挑戰日本的大學入學考試的研究計畫,電腦參加大學入學考試的一大難關是電腦無法理解考題內容。

最近幾年,日本常常有關於今後10至20年間可能會消失的職業的話題。

由於現在AI技術越來越進步,所以將來電腦有可能取代很多現存的職業。例如自動駕駛技術成熟後,電腦就可能取代鐵路和公路的車輛駕駛的工作。另外,電腦可以在一瞬間處理非常複雜的計算,而且幾乎不會出錯,所以銀行的業務員也可能被電腦取代。

這一類預測「可能會消失的職業」的報導非常多,每篇報導提到的職業都大同小異。這些「可能會消失的職業」的共通特徵就是「照著規則形式化作業。」

最近,有一部分報導把「翻譯」也列入「可能會消失的職業」。其實不只是媒體報導,有幾位我有在關注的日本社會評論家也認為今後「翻譯」這門工作可能會被電腦取代。他們的立論根據是AI技術越來越進步,IT企業可以透過網路蒐集龐大的文字資料,也可以透過聲控服務蒐集人類的語音資料。有了這些巨大資料,電腦在不久的將來就可以理解人類的語言,哆啦A夢的翻譯蒟蒻不再是想像中的工具。

翻譯時不找專業的翻譯人員,直接用電腦自動翻譯。其實這不能算預測,因為是現實中早就存在的事實,而且是十年前就已經是事實了。至於「電腦在不久的將來可以理解人類的語言」,則只是一部分媒體和評論家的浪漫的想像而已。

我在2008年曾經寫過〈自動翻譯機的浪漫〉〈翻譯軟體的能力極限〉兩篇文章,提到電腦的自動翻譯有很多缺陷。不過當時已經有很多人在用電腦的自動翻譯,儘管當時電腦翻出來的內容多半不像句子。

2018年的現在,電腦自動翻譯的品質明顯比十年前進步。十年前的自動翻譯翻出來的結果不像句子,現在的自動翻譯翻出來的結果比較像句子。不過電腦翻譯的基本原理還是和十年前一樣,就只是詞彙轉換和句子重組。只是以前的電腦是用文法規則來組句子,現在的電腦是參考大量語言範例來組句子。

由於目前這個世界上還沒有人想得出讓電腦理解人類語言的方法,所以開發翻譯系統的人做的不是讓電腦理解人類語言,而是用統計學的技術讓電腦參考大量例句,把轉換後的詞彙拼湊成比較自然的句子,所以現在電腦翻出來的句子比以前自然。不過詞彙轉換過程中必然會失真,如果原文夾帶了任何模糊語氣或暗示的話,翻譯的精度會更低。所以現在的電腦翻譯出來的句子的等級還是「僅供參考」。

今後20年,這個世界上恐怕還是造不出優質的自動翻譯系統。

2011年,日本的國立情報學研究所曾經推動了一個用AI技術讓電腦挑戰日本的大學入學考試的研究計畫。計畫的主題是「機器人進得了東大嗎?」具體而言,就是動用目前最新的技術讓電腦去考大學入學考試的摸擬考。考試的方法是把模擬考題的資料輸入電腦,讓電腦回答,然後和其他參加模擬考的高中生比成績,推算出電腦大概可以考上什麼學校。

這個計畫動員了上百名專業人士。一半是大學的學者和研究生,一半是民間企業的研究員。這個計畫本來是十年計畫,不過做了五年就中止了。因為大家得到結論,確定目前最先進的技術無法讓電腦考上東大,再多做五年也不會變。

電腦參加大學入學考試的一大難關是電腦無法理解考題內容。技術人員要做的是教電腦從考題的文字種類及排列組合特徵來推論「考題可能在問什麼」,然後讓電腦湊答案。舉例來說,負責數學科的技術人員是研究數學考題的文字特徵,分類成幾何代數型、統計型、數列型考題,然後讓電腦從題目中的數字來湊出可能的答案。負責歷史科的技術人員則是讓電腦從考題的各選項的關鍵詞分析出題目可能的形態,然後再比對題目的特徵,把相關性最高的選項當作答案。只從關鍵詞來推論考題內容非常不容易,不過技術人員還是找到了高精度的推論方法,讓電腦在數學和歷史科得了高分。

不過這種技術只適用於「日本的大學入學考試中的敘述比較形式化的考題」而已。國語和英語科的閱讀型考題的文章沒有固定的形式,無法從關鍵詞推論考題內容,而且閱讀測驗無法用計算或形式化的知識解題,所以電腦得不了高分。

日本的大學入學考試的國語科閱讀測驗的形式是讓考生看一篇文章。文章裡有幾段話的旁邊有畫線。考題就是問這幾段話的意義,然後讓考生四選一或五選一。由於電腦無法理解文章的意義,而且技術人員找不到有效的解題方法,所以最後負責國語科的技術人員是用計算文字量的方式讓電腦猜答案。具體而言就是計算文章中畫線句子中的文字種類及數量,以及該句子前一個段落中的文字種類及數量,當作參考基準。然後再計算各選項中的文字種類及數量,和參考基準比較。作答時就是讓電腦選和數值最接近參考基準的選項。

這種解題方法實質上和占卜差不多。不過這一招讓電腦的猜答案的正確率達到五成。這個方法是技術團隊試過的所有方法中得分最高的方法。不過因為本質上是猜答案,所以不論怎麼改良,成績永遠停留在猜答案的水準。

英語科考試中,英語科的技術人員一開始是給電腦3,300萬個英文例句資料。電腦在練習考古題時,英文句子重組問題的答題正確率達到八成。不過實際考摸擬考時,由於題目加了一點變化,電腦無法應付,結果三題中只答對一題,正確率掉到三成三。

之後,技術人員把英文例句資料加到19億個,這時候電腦才能答對大部分的英文句子重組問題。也就是說,19億個英文句子的範例資料可以讓電腦造出比較正常的句子。不過遇到英文會話測驗時,電腦的答題正確率就落到四成。後來技術人員又把英文例句資料提升到150億個,還讓電腦深層學習,狀況還是沒有明顯改善。研究團隊證明了巨大資料和深層學習在處理語言資料時並非萬能,無法讓電腦理解語言的意義。