Google Duplex代打電話預約猶如真人,背後要克服甚麼難題?

Google Duplex代打電話預約猶如真人,背後要克服甚麼難題?
Google影片截圖
我們想讓你知道的是

Google日前公開了一段示範錄音,是其Duplex技術代人類致電預約的對話,聽起來像真人一樣,背後其實要解決不少難題。

唸給你聽
powered by Cyberon

剛舉行的Google I/O以人工智能為主題,介紹Google多項新產品及技術。其中最引人注目的,相信是Google行政總裁皮蔡(Sundar Pichai)介紹新技術Google Duplex,能夠猶如真人秘書一樣打電話預約訂位。

會上的示範可謂令人驚訝︰

整段對話可見,Google Duplex不但聲音聽起上來像真人,其對答能力也是一流,相信大多數人如果是那位職員,也難以察覺訂位的其實是人工智能。

Google在網誌上亦有文章詳盡介紹Duplex,並附上更多示範錄音,例如這段致電餐廳訂位的錄音︰

文章解釋,Google Duplex技術製作的目標是聽起來自然,並令對話經驗舒服,對他們而言埸要的是用家及公司有良好的服務使用經驗。而要進行自然的對話,技術上有不少挑戰,例如人工智能需要理解自然語言、就自然行為製作模型、需要處理對話期間的回應速度問題、聲音聰起來要像真人等。

當人們跟其他人談話時,會使用比對電腦更複雜的句子,不時會在說到一半時更正,有時會按脈絡略去細節或加入多餘的資訊,亦會在一句內表達多項不同的意圖。此外,日常對話中人們說得較快、較不清晰,而且電話背景雜音、通話質素亦有影響,令語音識別演算法往往犯更多錯誤。

為令識別更準確,Duplex使用時間遞歸神經網絡(RNN)技術,並用匿名的電話對話數據作訓練,這個網絡亦使用Google的自動語音識別(ASR)技術的輸出結果,以及聲音的等徵、對話歷史等資訊。Google表示,他們為每項任務獨立訓練理解模型,同時利用跨任務共享的語料庫。

以下這段錄音可見,Duplex能夠處理被打斷話柄時的情況︰

要令Duplex聽起來像真人,Google結合了其文字轉換成語音的技術,包括Tacotron及WaveNet等,以控制語音的腔調並配合環境。系統亦會在仍然處理資訊時加入讓說話「不流利」的因素,例如「嗯」「啊」等聲音,就像人們邊說話邊想事情時一樣。用戶調查顯示,加入這些聲音聽起來會更熟悉和自然。

回應時間符合人們預期亦很重要,所以需要控制延遲時間。例如當對方簡單說一句︰「哈囉?」的時候,會預期得到即時反應,當系統偵測到這些情況,就會使用更快的模型。在極端的情況下,他們甚至不會等待RNN結果,改用更快速的近似值,這些時候通常會得出更猶豫的結果,像一個人不太理解對方說話時一樣。在某些時候——例如回答一句複雜的話——回應得較慢反而會令對話變得自然。

不過Duplex尚有進步空間,Google承認雖然Duplex目前能自行完成大多數對話,但有些時候還是應付不來。而Duplex系統有自我監察的能力,當它發現自己未能完成任務時,就會通知人類接手。

目前公開的示範均為錄音,如想進一步了解Duplex的實力,需要等待Google進行即時的示範。Google稱Duplex為一項實驗,只有少數Google助理用戶可以在這個夏天測試,暫時未肯定會在甚麼時候正式推出。

相關文章︰

資料來源︰

或許你會想看
更多『新聞』文章 更多『科技』文章 更多『Kayue』文章
Loader