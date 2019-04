文:ALYSSA NEWCOMB

譯:許睿洋

當用戶問亞馬遜語音助理Alexa關於自己背上疹子的問題,或是要它關電燈時,他們可能不知道會有其他人聽到這些問題和指令。

人工智慧需要人為輸入以及重複檢視來讓它變得更聰明。本周(原文發4月13日),一篇《彭博社》(Bloomberg)的報導為亞馬遜專門負責收錄用戶問題的團隊,揭開神秘的面紗。而這個AI訓練團隊,在全球各地共有上千名成員。

這些員工負責收聽的錄音檔,來自用戶給Alexa的指令與問題,如關電燈、播放泰勒斯(Taylor Swift)的歌曲等。他們會轉錄這些提問,並將它們重新輸入進Alexa的軟體中,使其更加聰明,也更能熟練地掌握人類說話的方式。

Twilio Autopilot(一個能讓開發者建立重複功能程式和Alexa應用程式的平台)產品與工程主任尼可.亞科斯達(Nico Acosta)說道,「這是訓練AI非常正常的方法,也是令它不那麼引人入勝的地方。所有的語音助理都需要透過真實世界的聲音素材進行訓練,這也就意味著需要人為轉錄來協助訓練。」

要讓用戶安心將這些智慧語音助理放在家中,勢必需要相應清楚的隱私規範。在給《財星雜誌》的聲明中,亞馬遜的發言人表示該公司僅會「從隨機挑選的用戶組別中,使用極少部分的互動過程」,負責聽取音檔的員工也無法辨識用戶的身分。

發言人說道,「舉例而言,這些訊息有助訓練我們的語音辨識和自然語言處理系統,使得Alexa能更容易理解你的指令,並確保這套服務適合所有人使用。我們有極為嚴格的技術與執行防護措施,且對於系統濫用實施零容忍政策。」

網路安全公司Forcepoint首席科學家理查.福特(Richard Ford)表示,未經處理的真人訓練素材對於維持服務品質「至關重要」。

福特說道,「如果你想要訓練Alexa的語音辨識,最好的材料就是利用那些真正『貼近生活』的場景,裏頭包含了背景噪音、狗吠聲、人們改變主意時的呢喃滴咕等──一切你能在真實世界中找到的『混亂』。」

然而,他表示,亞馬遜要在不聽取數千萬筆音檔的情況下訓練Alexa其實另有他法。

他說道,「你可以付費讓人們主動願意分享自己的資料或參與試驗活動,但到頭來,若要以較容易操作的方式取得真正實際的數據,可能還是得捕捉真實世界中的聲音資料。或許有些緩衝的措施,能將隱私外流的風險降至最低,但它們並非絕對有效,畢竟隱私權需要良善的治理、設計與履踐所共同匯集而來。」

儘管這樣的消息可能讓家中已有智慧語音助理的人們在隱私問題上徒增擔憂,但亞馬遜表示,它們的語音助理只會在聽到關鍵「喚醒詞」(如「Alexa」或「Amazon」)後才會開始錄下問題並將其傳送至雲端。當Echo揚聲器裝置上的藍色燈環亮起時就是它正在錄音的清楚標誌。

用戶也能清除過去的所有錄音。只要登錄「亞馬遜連結與裝置」(Amazon Connect and Devices)網站,用戶便能手動刪除一切曾問過Alexa的問題與指令。在網站上只要選擇「裝置」(devices)、「亞馬遜Echo」(the Amazon Echo),然後「管理聲音記錄」(manage voice recordings)即可。

若想避免在不知情的情況下成為「AI訓練師」,點選亞馬遜Alexa應用程式頁面左上角的目錄鍵。選擇「Alexa帳戶」(Alexa Account)與「Alexa隱私」(Alexa Privacy),接著點選「管理如何利用你的數據提升Alexa」(Manage how your data improves Alexa),並點擊「協助開發新功能」(Help Develop New Features)和「利用訊息來改善轉錄」(Use Messages to Improve Transcriptions)旁邊的按鍵以取消該功能。上述步驟便能防止亞馬遜利用你的錄音資料,來訓練它的軟體。

想當然耳,如果人人都主張保障隱私權,那麼要提升人工智慧對自然語言的理解就會需要更長的時間。福特說道,「在不使用真實資料的情況下,要得到這樣的語料庫是非常困難的,這也是為什麼從真實使用的狀況下蒐集資料會是如此重要。想要準時交出產品、又要兼顧它的高效能真的是個難題。」

© 2019 Time Inc. 版權所有。經Time Inc.授權翻譯並出版,嚴禁未經書面授權的任何形式與語言版本轉載。

責任編輯:朱家儀

核稿編輯:翁世航