對答如流的Google Duplex通過了「圖靈測試」嗎?

對答如流的Google Duplex通過了「圖靈測試」嗎?
Image Credit: depositphotos
我們想讓你知道的是

Google早前展示的Duplex技術能夠代人打電話預約,對話自然流暢,但這代表Duplex已經通過「圖靈測試」了嗎?

日前的Google I/O大會上,Google展示了其新技術Duplex模擬真人對話的能力,播出的錄音中Duplex打電話到髮廊預約時間,對答流暢,引起廣泛注意。有些媒體報道甚至指Duplex已經通過「圖靈測試」(Turing Test)——一項被部分人視為判斷機器具有智能的指標。

甚麼是圖靈測試?

圖靈測試可謂歷史悠久,在1950年由電腦科學之父圖靈(Alan Turing)提出,源於他在哲學期刊《心靈》(Mind)刊登的重要論文〈計算機械與智能〉(Computing Machinery and Intelligence)。在這篇論文中,圖靈探討「機器能否思考」這個問題。他認為與其討論「機器」和「思考」的定義來解答問題,倒不如以另一個相關但較少歧義的問題代替。

首先圖靈介紹一個「模仿遊戲」——2014年以圖靈為主題的電影,正是以此命名——參與者有三人︰男人(A)、女人(B)以及詢問者(C),詢問者跟其餘兩人分處不同房間並跟兩人透過文字對話,兩人分別以「X」或「Y」的名字跟詢問者溝通,遊戲結束時,C必須判斷X、Y兩人中哪人是A、哪人是B(即判斷其性別,此處假設了兩人的生理性別跟其自我認同一樣)。

然而A、B兩人在遊戲中的目標相反,B須協助詢問者找出正確答案,而A的目標就是瞞騙C——換言之,B要令C知道自己是女人,而A則要讓C誤以為他是女人。圖靈提到,為免遊戲受A、B的聲音、字跡影響,他們最好透過打字機溝通——現在有通訊軟件,自然方便得多。

回到「機器能否思考」的問題,圖靈提出讓機器代入A的角色,B、C則繼續是人類,這個「機器模仿遊戲」由模仿異性改為模仿人類。圖靈認為,如果A能夠騙過C,讓這位詢問者誤以為它是人類,就可視作能夠思考的指標。後來這個遊戲就被稱為「圖靈測試」,是人工智能領域中的一項著名測試。

測試的各項參數

必須注意的是,圖靈測試其實並非一個標誌着「智能」的單一門檻,這個測試中各項細節改變均會導致不同結果,例如詢問者的知識和文化背景、參與程式想要模仿甚麼人、詢問時間長短等等。

此外,假如程式能完美模仿另一位參與者,而詢問者須在有限時間內猜出其身分,那麼就有一半機會猜中,這卻不是程式本身的問題。因此測試結果要有意義的話,需要多做幾次測試或者多幾名詢問者,再看程式被辨認出來的機會。

在論文中圖靈預計,50年內(即2000年前)有可能出現普通詢問者問了5分鐘問題後,只有少於7成機會正確辨認身分的程式——最終沒有實現。

考慮到圖靈測試的各項細節,單憑Google發放的一段錄音,我們不能太快斷言Duplex通過了圖靈測試。Google母公司Alphabet的董事會主席軒尼斯(John Hennessy)比較謹慎,只說Duplex「在預約的領域方面通過了圖靈測試」,強調它未通過一般的圖靈測試。

而據Google的說法,Duplex有自我監控的能力,當發現自己無法應付對話時會交給人類處理,由此判斷,Duplex還未算通過圖靈測試。

一些聊天程式

圖靈測試不應視為「一個」測試,而是一系列不同難度的測試。所以當有人說「有程式通過圖靈測試」時,我們必須問那程式在模仿甚麼人、測試時間多長、評審人數等。

2014年,雷丁大學(University of Reading)宣稱在其舉辦的「2014圖靈測試」中,電腦程式Eugene Goostman通過了圖靈測試——不少媒體紛紛報道此事,甚至連最初新聞稿中稱該程式為「超級電腦」也照抄無誤(雷丁大學其後修正了這個錯誤)。

仔細看的話,Eugene Goostman模仿一個13歲烏克蘭男孩,評審有30人,測試時間為5分鐘,對話語言為英文,當中有10位在測試後誤以為Eugene Goostman是人類。雷丁大學採用30%的界線,相信源於圖靈的預測——但圖靈那段文字其實是估計2000年人工智能發展水平,而非提出通過圖靈測試的標準。再者,程式設定為母語非英語的男孩,某程度上取巧避開了部分對話不自然的問題。

早於1964年,電腦程式ELIZA已利用配對模式(pattern matching)及替換等方式,模仿一名心理治療師。雖然ELIZA可算是最早的聊天機械人,但它其實沒有任何理解內容的演算法,只是尋找關鍵字再輸出回應。即使遠比現時的演算法簡單,仍有人誤以為ELIZA是人類。

到了1972年,模仿偏執型精神分裂症病患的聊天程式PARRY,曾跟8名精神科醫師對話,控制組是3位相同症狀的病患。這些對話的記錄再給了33名精神科醫師閱讀,測試結果發現,他們判斷哪位是程式的準確度不比隨機挑選好。在進一步的測試中,另外100位隨機選取的精神科醫師閱讀對話記錄,並判斷誰是病人誰是程式,40個回應當中有21人對19人錯,同樣大約在一半左右。

假如不看細節,這些程式也許都被視為「通過圖靈測試」。然而它們只是模仿特定對象,能夠談論的議題有限,跟圖靈論文中未有限制討論範圍、詢問者為一般人的設定有別。

我們應關心Duplex的技術發展

圖靈測試提出時,人工智能甚至電腦的發展本身仍在非常早期的階段,後來有人開始質疑,這個測試應否視作人工智能的判準。有部分質疑者認為圖靈測試太過狹窄,以此作智能的判準,會導致我們只承認能夠跟我們對話的東西有智能。另外亦有人認為圖靈測試過於寬鬆,通過測試不等如有智能。

這些爭議固然有意義,但在此還是先留給人工智能領域的相關專家,目前而言,所謂的「強人工智能」或「通用人工智能」尚未出現,相信短期內也不會出現(當然這預測有可能錯)。

不過,Google Duplex的確非常逼真,而且看來不會局限於預約訂位,就算暫時只有示範錄音,能夠正式推出相信是時間問題。將來Duplex及類似技術相信能勝任不少跟人類談話的工作,有不少值得令人關注的地方。

例如,跟人類對話的人工智能,應否揭露它是個程式而非真人?就像社交網站上有不少聊天機械人不斷貼文、留言,待技術成熟後不難想像很快會被濫用,例如大量宣傳電話滋擾,甚至更逼真的詐騙,一切都變得自動化。現時不少人會把沒顯示號碼的來電自動視為騷擾電話,未來我們會不會預設把所有來電者當成人工智能?

研究人工智能倫理的學者拜臣(Joanna Bryson)認為,Google明顯有義務透露人工智能參與對話的資訊。Google發言人回應質疑時表示,該公司將會在Duplex技術內置披露其為人工智能的功能,會確保系統會被恰當辨認出來,強調公開透明非常重要。

拜臣相信有關技術需要受監管,畢竟「Google或會做正確的事,但並非所有人都會」。不過他認為,Google展示這項技術本身非常重要,因為肯定不只一家公司正在發展及打算使用這項技術,而Google的示範能夠讓大眾知道相關技術發展進度。

相關文章︰

資料來源︰

核稿編輯:王陽翎