Meta「閩南話口語翻譯系統」計畫負責人來自台灣,「鄉土劇」對訓練AI有貢獻

Meta「閩南話口語翻譯系統」計畫負責人來自台灣,「鄉土劇」對訓練AI有貢獻
Photo Credit: Mark Zuckerberg FB

我們想讓你知道的是

人工智慧研究員陳鵬仁(Peng-Jen Chen)70歲已退休的父親陳聖獎來自台灣南部,主要說閩南語(Hokkien,台語或福建話)。他一直希望父親能用閩南語和所有人溝通,因為那是他父親用起來最舒服的語言。就是這個「為愛翻譯」的初心,他著手解決問題。

Meta飄台味,陳鵬仁為愛翻譯人工智慧上場

(中央社)社群媒體Meta昨(20)日推出人工智慧閩南語口語翻譯系統。負責這項計畫的陳鵬仁來自台灣,他「為愛翻譯」的初衷是希望他父親能夠用台語和任何人交談。

Meta官網昨天發布,人工智慧研究員陳鵬仁(Peng-Jen Chen)表示,他在台灣的成長過程說中文,也就是老一輩人俗稱的「漢語」或「普通話」,而他70歲已退休的父親陳聖獎來自台灣南部,主要說閩南語(Hokkien,台語或福建話)。

他說父親聽得懂中文,但是對較複雜的中文反應較慢,中文和閩南語之間,雖然有關聯性,卻也有其不同。

陳鵬仁了解語言的障礙會影響人們的溝通,他一直希望父親能用閩南語和所有人溝通,因為那是他父親用起來最舒服的語言。

就是這個「為愛翻譯」的初心,他著手解決問題,他領頭開發新技術,進行閩南語和英語之間的翻譯。

昨天登場的這個閩南語翻譯系統的展示影音,Meta創辦人兼執行長祖克柏(Mark Zuckerberg)用英語和說台語的陳鵬仁對話,經由機器人中介翻譯,無縫溝通。

不過在開發這套翻譯系統之初,由於閩南語沒有太多現成可用的語音資料庫,加上能夠以英語轉換為福建語的翻譯人員很少,在收集文本、解譯資料,和訓練翻譯模型時困難重重。

陳鵬仁和Meta的研究人員利用「中文」作為中間語言,和會說閩南語的人緊密合作、確保翻譯正確,把閩南語轉為中文、再轉為英文,以兩組配對的句子透過機器學習進行比對訓練。

約書亞.楊(Joshua Yang,譯音)在推文透露,Meta的研究員採用3萬小時台劇作為翻譯文本。

陳鵬仁的高中同學和好友侯宗佑在臉書(Facebook)寫道,陳鵬仁即使「住在美國也一直非常用心地在找台語教材,讓小孩練習母語」。

電腦翻譯早已不是新概念,過去多偏重在書面語言之間的轉譯。Meta表示,在7000多種現存語言中,超過40%為口說語言,沒有標準或廣泛熟知的書寫系統。

陳鵬仁和他的團隊成了早期使用人工智慧科技、為沒有正式書寫系統的語言建立翻譯系統的先驅。這也是Meta「通用語音翻譯器」(Universal Speech Translator)計畫的一部分,即時把語音從一個語言翻譯成另一個語言,無需仰賴書面中介。

一些沒有標準化書寫形式的語言正面臨消失的風險。研究人員認為,人工智慧可以幫助解決非書寫語言的使用者保留語言、解決溝通障礙。

Meta打造台語英語AI翻譯,台灣鄉土劇有貢獻

(中央社)臉書母公司Meta昨天宣布推出由人工智慧(AI)技術支援的閩南語(台語)、英語即時互譯系統。台灣大學電機系副教授李宏毅今天透露,台灣鄉土劇在訓練機器過程中,扮演一定角色。

網路科技公司Meta宣布建立一套AI系統,可讓台灣常用的閩南語(影片中稱為福建話Hokkien)和英語互譯,引起台灣社會關注。

台灣大學電機工程學系副教授李宏毅參與的研究團隊,收集1500小時的台灣鄉土劇資料,在Meta這次的AI系統中扮演一定角色。李宏毅接受《中央社》電訪指出,鄉土劇最大的特色是有閩南語聲音訊號,還有文字字幕可對照,機器可因此學到「成對」的資訊。

李宏毅解釋,過去AI翻譯做得比較好的,大都是使用人數多、資料量大的語言,例如中文轉英文,會有人願意投入大量資源去收集資料、標註。但對於沒有那麼多人使用的語言,還要投入那麼多的人力,就沒那麼划算。

他指出,Meta技術上的突破,在於讓機器透過大量沒有標註的資料「自監督學習(Self-Supervised Learning)」。就像是人類幼童學習母語,都是先大量聽人說話,在腦中形成一定的概念,等上學後老師提點一下,就能很快學會該語言的系統。

Meta也是先讓機器聽一大堆沒有文字標註的聲音,對語言有一定程度瞭解後,再給予一些「成對」資料提點,進而很快學會這種語言。台灣鄉土劇就是作為提點的關鍵角色之一。

李宏毅解釋,鄉土劇最大的好處,在於除了有聲音訊號,還有文字字幕可以對照,這就是「成對」的資料,對機器來說,這是非常好的教材。Meta也運用了Taiwanese Across Taiwan(TAT)的閩南語語音語料庫來訓練,幫助提高準確率。

未命名
圖片來源:Taiwanese Across Taiwan(TAT)的閩南語語音語料庫
Taiwanese Across Taiwan(TAT)的閩南語語音語料庫

李宏毅也指出,Meta技術的一個特點是「語音直接轉語音」,有別於傳統的方法,是先將語音轉換成文字,翻譯成另一種語言的文字後,再套語音模組。傳統方法的最大壞處,就是只要其中一個環節出錯,錯誤就會一路傳遞下去。

他說,「語音轉語音」能減少錯誤傳遞的問題,另一大好處是,人類講話會帶情緒,語氣輕重都會影響意義。因此直接語音轉語音,就能保留這些情緒,讓翻譯更為準確。這項技術特別適合用在無法打字的場合,例如「元宇宙」中;或用於缺乏書寫系統的語言。

不過,李宏毅說,Meta昨天的影片看起來很強,但若認真去看論文並去實際嘗試,就會知道離真正應用到日常生活中,還有一大段距離。如果是娛樂性質,翻錯1、2個字無傷大雅,但若要用在正式溝通場合,就不是目前技術能做到。

李宏毅認為,AI短時間內不能完全取代翻譯的工作,畢竟翻譯是一種「藝術」。但隨著科學發展,AI應可「幫得上忙」,例如先大致翻譯出一個版本,再由人類進一步編修,減輕工作負擔。

Meta台語AI翻譯,專家實測:早期測試準確率待加強