Meta「閩南話口語翻譯系統」計畫負責人來自台灣,「鄉土劇」對訓練AI有貢獻

我們想讓你知道的是
人工智慧研究員陳鵬仁(Peng-Jen Chen)70歲已退休的父親陳聖獎來自台灣南部,主要說閩南語(Hokkien,台語或福建話)。他一直希望父親能用閩南語和所有人溝通,因為那是他父親用起來最舒服的語言。就是這個「為愛翻譯」的初心,他著手解決問題。
Meta飄台味,陳鵬仁為愛翻譯人工智慧上場
(中央社)社群媒體Meta昨(20)日推出人工智慧閩南語口語翻譯系統。負責這項計畫的陳鵬仁來自台灣,他「為愛翻譯」的初衷是希望他父親能夠用台語和任何人交談。
Meta官網昨天發布,人工智慧研究員陳鵬仁(Peng-Jen Chen)表示,他在台灣的成長過程說中文,也就是老一輩人俗稱的「漢語」或「普通話」,而他70歲已退休的父親陳聖獎來自台灣南部,主要說閩南語(Hokkien,台語或福建話)。
他說父親聽得懂中文,但是對較複雜的中文反應較慢,中文和閩南語之間,雖然有關聯性,卻也有其不同。
陳鵬仁了解語言的障礙會影響人們的溝通,他一直希望父親能用閩南語和所有人溝通,因為那是他父親用起來最舒服的語言。
就是這個「為愛翻譯」的初心,他著手解決問題,他領頭開發新技術,進行閩南語和英語之間的翻譯。
昨天登場的這個閩南語翻譯系統的展示影音,Meta創辦人兼執行長祖克柏(Mark Zuckerberg)用英語和說台語的陳鵬仁對話,經由機器人中介翻譯,無縫溝通。
不過在開發這套翻譯系統之初,由於閩南語沒有太多現成可用的語音資料庫,加上能夠以英語轉換為福建語的翻譯人員很少,在收集文本、解譯資料,和訓練翻譯模型時困難重重。
陳鵬仁和Meta的研究人員利用「中文」作為中間語言,和會說閩南語的人緊密合作、確保翻譯正確,把閩南語轉為中文、再轉為英文,以兩組配對的句子透過機器學習進行比對訓練。
約書亞.楊(Joshua Yang,譯音)在推文透露,Meta的研究員採用3萬小時台劇作為翻譯文本。
陳鵬仁的高中同學和好友侯宗佑在臉書(Facebook)寫道,陳鵬仁即使「住在美國也一直非常用心地在找台語教材,讓小孩練習母語」。
電腦翻譯早已不是新概念,過去多偏重在書面語言之間的轉譯。Meta表示,在7000多種現存語言中,超過40%為口說語言,沒有標準或廣泛熟知的書寫系統。
陳鵬仁和他的團隊成了早期使用人工智慧科技、為沒有正式書寫系統的語言建立翻譯系統的先驅。這也是Meta「通用語音翻譯器」(Universal Speech Translator)計畫的一部分,即時把語音從一個語言翻譯成另一個語言,無需仰賴書面中介。
一些沒有標準化書寫形式的語言正面臨消失的風險。研究人員認為,人工智慧可以幫助解決非書寫語言的使用者保留語言、解決溝通障礙。
Meta打造台語英語AI翻譯,台灣鄉土劇有貢獻
(中央社)臉書母公司Meta昨天宣布推出由人工智慧(AI)技術支援的閩南語(台語)、英語即時互譯系統。台灣大學電機系副教授李宏毅今天透露,台灣鄉土劇在訓練機器過程中,扮演一定角色。
網路科技公司Meta宣布建立一套AI系統,可讓台灣常用的閩南語(影片中稱為福建話Hokkien)和英語互譯,引起台灣社會關注。
台灣大學電機工程學系副教授李宏毅參與的研究團隊,收集1500小時的台灣鄉土劇資料,在Meta這次的AI系統中扮演一定角色。李宏毅接受《中央社》電訪指出,鄉土劇最大的特色是有閩南語聲音訊號,還有文字字幕可對照,機器可因此學到「成對」的資訊。
李宏毅解釋,過去AI翻譯做得比較好的,大都是使用人數多、資料量大的語言,例如中文轉英文,會有人願意投入大量資源去收集資料、標註。但對於沒有那麼多人使用的語言,還要投入那麼多的人力,就沒那麼划算。
他指出,Meta技術上的突破,在於讓機器透過大量沒有標註的資料「自監督學習(Self-Supervised Learning)」。就像是人類幼童學習母語,都是先大量聽人說話,在腦中形成一定的概念,等上學後老師提點一下,就能很快學會該語言的系統。
Meta也是先讓機器聽一大堆沒有文字標註的聲音,對語言有一定程度瞭解後,再給予一些「成對」資料提點,進而很快學會這種語言。台灣鄉土劇就是作為提點的關鍵角色之一。
李宏毅解釋,鄉土劇最大的好處,在於除了有聲音訊號,還有文字字幕可以對照,這就是「成對」的資料,對機器來說,這是非常好的教材。Meta也運用了Taiwanese Across Taiwan(TAT)的閩南語語音語料庫來訓練,幫助提高準確率。

李宏毅也指出,Meta技術的一個特點是「語音直接轉語音」,有別於傳統的方法,是先將語音轉換成文字,翻譯成另一種語言的文字後,再套語音模組。傳統方法的最大壞處,就是只要其中一個環節出錯,錯誤就會一路傳遞下去。
他說,「語音轉語音」能減少錯誤傳遞的問題,另一大好處是,人類講話會帶情緒,語氣輕重都會影響意義。因此直接語音轉語音,就能保留這些情緒,讓翻譯更為準確。這項技術特別適合用在無法打字的場合,例如「元宇宙」中;或用於缺乏書寫系統的語言。
不過,李宏毅說,Meta昨天的影片看起來很強,但若認真去看論文並去實際嘗試,就會知道離真正應用到日常生活中,還有一大段距離。如果是娛樂性質,翻錯1、2個字無傷大雅,但若要用在正式溝通場合,就不是目前技術能做到。
李宏毅認為,AI短時間內不能完全取代翻譯的工作,畢竟翻譯是一種「藝術」。但隨著科學發展,AI應可「幫得上忙」,例如先大致翻譯出一個版本,再由人類進一步編修,減輕工作負擔。
Meta台語AI翻譯,專家實測:早期測試準確率待加強
Tags:
2023迎向雲端浪潮,掌握職場躍進方程式,培養雲端硬實力就在此刻!

我們想讓你知道的是
未來,「雲端」將成為企業運作過程不可或缺的數位競爭力之一,而臺灣雲端服務商龍頭AWS即將於2月23日舉辦AWS線上雲端培訓日,免費傳授基本雲端概念技術,並幫助參與者認識雲端、學習AWS提供之上百種的免費雲端服務。
回首2022年來勢洶洶的數位轉型浪潮,數據運算、資料儲存、提升安全性等雲端技術早已成為企業製程最佳化、擴充業務規模、創造價值的重要利器,而在新的一年中,數據分析公司也指出,整合AI分析平台上雲不只能有效降低部署時間、減少人力成本,亦是在可見的未來中,提升商業價值、邁向永續轉型的科技大勢。因此,許多企業也延續轉型浪潮餘波,積極導入大數據、人工智慧(AI)、機器學習(ML)等進階數據科技,並搭配各式雲端服務來強化企業內部運轉效能,迎戰全新的市場挑戰。
數位革新不落人後,AWS助您入門雲端
當「雲端」從產業發展、轉型的熱門關鍵字轉變為2023年不分產業別,都有強烈需求的職場必備硬實力,每一位在產業中耕耘奮鬥的從業人員、或是初入社會職場的新鮮人,又該如何提升自我,加緊腳步跟上這一波未平一波又起的數位革新呢?
好消息是,臺灣雲端服務商龍頭Amazon Web Services(AWS)即將於2023年2月23日的下午2點至5點,舉辦AWS線上雲端培訓日(AWSome day),透過專為雲端新手設計的一系列實用入門課程,一步步帶領大家了解雲端技術以及AWS服務。
專業講師彙整雲端精華,基本服務、創新應用一次滿足
AWS線上雲端培訓日是針對雲端新手所量身打造的免費入門實用課程。課程內容由AWS的資深業務發展經理KC Liang,以及AWS技術培訓師Stanley Huang共同帶領,兩人將從雲端趨勢、技術概念、產業應用等角度逐一介紹,並透過深入淺出地介紹及示範儲存、資料庫管理、運算和網路、資訊安全等基本雲端概念技術以及AI機器學習、區塊鏈、5G及衛星通訊等熱門創新服務,讓您即刻上手AWS高達100多種的免費服務。

課程結束後,除了獲得AWS提供的培訓證書、養成雲端技術能力,亦能了解如何透過雲端服務掌握市場優勢,所以無論是對雲端服務感興趣的新鮮人、企業或資訊相關的高級主管,還是擁有豐富開發經驗的工程師或技術人員,AWS線上雲端培訓日都能為您建立雲端技術概念、拓展應用視野,為個人或公司帶來正面性的影響。
更棒的是,AWS線上雲端培訓日不只開放免費報名,凡完整參加並填寫會後問卷的參與者皆可參加抽獎,有機會將Air Pods(第三代)與AWS客製露營燈免費帶回家!此外,若您是新用戶,在活動前註冊AWS免費帳號並填寫贈品申請表單,還能直接獲得「AWS不鏽鋼智慧型保溫瓶」,歡迎點此了解更詳細活動規範。
