韓國首位AI主播亮相,人工智慧可以完全取代真人主播了嗎?

韓國首位AI主播亮相,人工智慧可以完全取代真人主播了嗎?

我們想讓你知道的是

究竟目前AI主播可以完全取代真人主播了嗎?此技術的特點和和限制為何?我們邀請專家釋疑。

議題背景

2020年11月6日,韓國MBN電視台運用以真人主播「金柱夏」為原型的AI主播,順利播報了當天的主要新聞。由於AI主播報導新聞的影像十分逼真,立刻引發大眾熱烈討論。

影片中左為真人主播,右為AI主播:

新聞報導:

  1. 中央社〈韓國首名AI主播上工,對新聞業是助力還是壓力(影)
  2. 新頭殼〈太過逼真!南韓首位AI主播亮相,網友直呼:令人毛骨悚然

究竟目前AI主播可以完全取代真人主播了嗎?此技術的特點和和限制為何?我們邀請專家釋疑。

來看看專家怎麼說。

許志仲(國立屏東科技大學資訊管理系助理教授)
2020年11月25日

此AI新聞主播,主要是由韓國MoneyBrain公司所開發,並未對外揭露技術相關細節。然而,從學術的角度來看,要合成以假亂真的AI主播,在技術上並無太大困難之處,諸如影片的生成、聲音的合成,都有既有相關研究領域的開放原始碼與研究論文可供參考。

作出AI主播所需最簡便的方法,只要將相關的新聞文稿先輸入電腦,並拍攝一真人影片,並套用換臉技術即可。因此若台灣的學研團隊,有結合影像視訊與聲訊處理之專才,並不難產生相似的成果。

事實上,在影像與視訊處理的領域,最常見的傳統換臉技術,如大家熟知的DeepFake深度偽造,或是其他開源CycleGAN(註1)等技術,都有能力合成出上述的成果。

雖然目前現有相關文獻中,較少提及能直接從文稿,生成具有逼真視覺效果加上語音的AI主播,但各部分相關技術皆有一定程度的水準。

例如,人工智慧頂尖會議(AAAI Conference on Artificial Intelligence),去(2019)年就有一篇知名論文(註2)發展之AI技術,可以透過學習資料庫中影片,學習聲音與臉部表情的關係。接著,給定特定的聲音訊號,以及目標人臉,便能產生仿真的人臉視訊,甚至產生AI主播。

故在技術上,並非不可能。然而目前我們可以觀察到,大多數的生成技術通常是在較平坦單調的背景中使用,這也是受限於技術的限制,目前還無法合成出在複雜且變動背景下的人臉視訊。

自從2019年開始,許多產業與學術研究團隊注意到這些生成人臉,可能帶來許多潛在危機,因此偵測這些偽造人臉相關技術,已有不少團隊投入。例如影像視訊相關國際研討會,近一兩年來皆有少數相關研究成果產出,其中包含Microsoft與Facebook都有相關的研發成果。

國內我們團隊亦投入AI生成影像的鑑識技術多達兩年,除了已可穩定辨識出偽造人臉影像,目前在人臉視訊和AI主播等類似的應用上,亦有相關研究成果準備發表。

雖然我們很難肯定未來是否會有更多AI生成技術,可以令我們發展的鑑識技術都失效,但可以確定的一點是,未來會有更多的產學研團隊,投入偽造影視訊辨識的領域。

  • 相關利益聲明:無相關利益

註釋

  1. (註1) 編註:CycleGAN是一個神經網路模型,可用來作不同影像之間互相轉換,例如把照片中的的斑馬轉換為棕色馬,或是把畫作中的夏天場景轉換為冬天。公開程式碼請參考〈junyanz/pytorch-CycleGAN-and-pix2pix〉。
  2. (註2) Zhou, H., Liu, Y., Liu, Z., Luo, P., & Wang, X. (2019). “Talking face generation by adversarially disentangled audio-visual representation.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33, pp. 9299-9306.

本文經新興科技媒體中心授權刊登,原文刊載於此

責任編輯:朱家儀
核稿編輯:翁世航