《聲控未來》:了解Siri的人先後離開蘋果,就像搖滾樂團受歡迎的主唱過世

《聲控未來》:了解Siri的人先後離開蘋果,就像搖滾樂團受歡迎的主唱過世
Photo Credit: Shutterstock/達志影像
我們想讓你知道的是

Siri已經脫離早期亂象叢生的階段,並且日益成熟,現在可以處理數百萬使用者的需求,而且轉型為機器學習系統。只要iPhone銷量持續突破新高,並創造巨大利潤,Siri仍是虛擬助理的主流。

唸給你聽
powered by Cyberon

文:詹姆士・弗拉霍斯(James Vlahos)

隨銷售量創新高而來的Siri批評聲浪

時間回到二○一一年十月四日,當時亞馬遜的都卜勒計畫尚未公諸於世,切爾當然也不知道這件事。當時Siri剛發表,切爾說他像是「全世界最快樂的人」[1]。Siri一推出就引發旋風。新的iPhone在一週內就銷售四百萬支,到了年底,總銷售量則達到三千七百萬支。市場分析師表示,新的iPhone之所以熱賣,Siri功不可沒。蘋果在二○一一年第四季的總產品銷售額達到四百六十三億美元,創下當時科技業界歷史新高。切爾覺得,他正站在巨大變革的浪潮上,心想:在人類創造那麼多的軟體裡,Siri是最重要的一個。

Siri一開始廣受好評,大家都讚譽有加。然而,到了二○一二年下半年,負評湧現,因為很多人開始發覺Siri的缺點,有使用者把Siri失言的影片上傳到YouTube,也有評論家撰寫毒舌評論。著名科技記者法拉德.曼裘(Farhad Manjoo)就在Slate上批評道:「蘋果的數位助理推出時炒作得很厲害,信誓旦旦地說會改變一切的一切。[2]」但是因為語言理解能力差勁,Siri「令人深感失望,不過是華而不實的把戲」。

於是蘋果拍攝廣告,請來柔伊.黛絲香奈(Zooey Deschanel)、山謬.傑克森(Samuel L. Jackson)、約翰.馬克維奇(John Malkovich)與馬丁.史柯西斯(Martin Scorsese)為Siri背書,但是有些使用者卻認為這支廣告有不實嫌疑,於是提起集體訴訟,控告蘋果詐欺。蘋果原始共同創辦人史蒂夫.沃茲尼克(Steve Wozniak)也發表批評,他向記者暗示,蘋果買下Siri公司之前,Siri的性能較好 [3]。就連速食店Jack in a Box也拍攝一支廣告調侃虛擬助理的語音辨識技術,影射Siri。

「最近的Jack in the Box餐廳在哪裡?」廣告裡,傑克如此問助理 [4]。

「我找到四家賣襪子的店。」助理回答。

在某種程度上,蘋果率先推出一項野心勃勃卻尚未成熟的科技,當然要付出代價。Siri這個產品是前所未見的全新發明,人們無法拿以前類似的產品比較,因此有很多人都以科幻電影裡成熟的人工智慧來和Siri相比,有些使用者也用人類的標準來衡量Siri的聰明才智和語言技巧。的確,蘋果華麗的行銷手法讓人覺得他們的科技很厲害,再加上Siri的介面很人性化,會說笑話,還會用高明的回答來打臉使用者,讓人們以為Siri擁有深層智慧,因此都用不切實際的高標準來衡量Siri。(之後推出的虛擬助理就比較幸運,沒有遇到這個問題,因為人們可用Siri做為參考,並藉此相比。)

然而Siri出現問題,不能只怪人們期望過高。Siri剛推出沒幾天,使用者就達到數百萬,一個運算平台要處理這麼大的使用量,可說是非常困難。因此,蘋果的人員要日夜輪班,拚命擴展Siri的規模,處理攀升的流量,但系統降速與關閉的情形還是在所難免。

數年後,一些Siri的研發人員向媒體抱怨,Siri的原始軟體有許多程式錯誤,也承受不了那麼大的使用量[5]。也有人批評,Siri的程式碼有基本的結構性問題,讓擴展規模的流程變得複雜,也讓擴充新功能的速度變得很慢。因此有人認為Siri可以慢慢改善,也有人認為Siri必須砍掉重練,兩方爭執不下。有人批評Siri公司把有缺陷的產品賣給蘋果,但是吉特勞斯極力反對這個說法。二○一八年,他在推特(Twitter)上寫道:「簡直就是胡說八道,Siri剛推出時運作良好,但是後來使用量比預期大上很多,因此需要二十四小時輪班擴展Siri的規模,所有的新平台都是如此。」

但是,切爾知道Siri有很多需要改進的地方。蘋果推出的不過是第一個版本,而切爾有詳細的改善計畫,他總體的構想是打造一個人工智慧助理,讓人類憑藉說話就可以連結到數位世界。要實現這個構想,Siri就必須能自由自在地徜徉網路世界,連結到各個第三方網站,而且愈多愈好,才能實現創造者的初衷。

但是蘋果推出的Siri版本,並未如願在網路世界自由徜徉。賈伯斯想確保Siri運作順暢,因此嚴加控管。在蘋果收購前,Siri能連結到四十五個第三方應用程式,而且原本的構想是連結愈來愈多;然而蘋果收購後,Siri卻被綁手綁腳,只能連結到少數蘋果開發的應用程式。這對Siri造成很大的限制,就像是Google搜尋引擎只能顯示自己的網站,看不到網路世界的其他東西。但是切爾並不為此感到擔憂,因為賈伯斯曾說,他也認為長遠看來必須連結到外部的應用程式。iPhone本身就是如此,一開始只能使用蘋果自行開發的應用程式,後來才開放數以千計的外部開發人員發揮。

淪為人工智慧孤兒的Siri與奮起直追的Google

不過賈伯斯過世後,一切都改變了。原本賈伯斯是Siri的啦啦隊長,擁有至高無上的權力,迫使其他高層接受創辦團隊對Siri的願景,在他過世後,管理動盪,許多團隊領導者不滿蘋果對Siri的計畫,不是憤而出走,就是被迫離職。

吉特勞斯是第一個出走的,他在Siri發表三週後就離開了。切爾撐得久一些,但是也在二○一二年六月離職。「我拋棄數百萬金錢,離開我喜歡的人,放棄我愛的計畫,但我就是覺得自己待不下去了,無法和那裡的人共事。」切爾說道。吉特勞斯離職後,路克.茱莉亞(Luc Julia)接任他的職位,但是到了二○一二年十月也離開了。此外,負責監督Siri計畫的理查.威廉森(Richard Williamson)與福斯托,於同年底被迫辭職。如同史丹佛大學未來學家保羅.沙佛(Paul Saffo)對一位記者說的:Siri已經變成「人工智慧孤兒[6]」。

原本的領導團隊相繼離開,情況陷入混亂。新聞網站The Information上有一篇文章寫道,有十幾位Siri前員工表示:「Siri各個團隊變得效率低下,互相爭奪地盤,爭吵不休,每個人心中都對理想的Siri有不同的意見。領導團隊與中階管理者來來去去,都缺乏賈伯斯先生的遠見與影響力。[7]」團隊缺乏一位強而有力的領導者(或至少是一位和切爾有共同願景的領導者),於是蘋果最終並未開放讓Siri自由連結外部應用程式,因此使用者無法透過Siri這個對話介面連結到整個數位世界,Siri的環境大體上保持封閉。

約翰.伯基(John Burkey)於二○一四年至二○一六年間參與Siri的高階開發團隊,他說Siri之所以停滯不前[8],是因為真正了解Siri軟體的人都離開了,就好像搖滾樂團裡,受歡迎的主唱過世,留下其他團員努力演奏熱門歌曲一樣。有人批評Siri原本的軟體就有缺陷,伯基雖然不這麼認為,但他承認真正了解Siri的人員都出走了,要操作整套軟體系統就變得很麻煩,像是一台用大力膠帶和口香糖黏接的機器。

蘋果努力解決Siri問題的同時,其他競爭對手也沒有遊手好閒,其中一個就是Google。Google並沒有像蘋果那樣發表單一產品,然後大肆宣揚,而是選擇一步步推出不同的對話式人工智慧功能,然後慢慢改良,這樣的方法比較低調,產品也不會受到太多檢驗。二○○八年,Google就推出一個iPhone 的應用程式,讓使用者可以用語音搜尋,說出要搜尋的字詞,程式即可搜尋,不需要打字。雖然搜尋結果仍是以傳統方式條列顯示在螢幕上給使用者觀看,但是透過這個科技,Google可以累積珍貴的語音處理經驗。

二○一二年,Google推出類似虛擬助理的服務,名為「Google即時資訊」(GoogleNow)。這個程式能依照個人需求並參考使用情境,提供使用者各種資訊,像是運動賽事比分、行事曆提醒事項、天氣預報或行車路線等。Google即時資訊甚至還可以預測使用者想問什麼,並事先提供資訊。例如,Google即時資訊看到行事曆上顯示你今天在市區和人有約,而且交通不是很順暢,就會提醒你要提早幾分鐘出發。透過Google即時資訊,使用者可用打字或講話來搜尋網頁、撥打電話、寄發電子郵件、選播歌曲或詢問路線。

Google雖然沒有大肆宣揚,但也表明這項產品是很大的進展,Google的科技研發方向不再只是讓使用者在搜尋框裡輸入字詞,而是讓使用者能自然和程式對話。Google即時資訊不是一體適用的服務,只提供千篇一律的內容,Google表示這是一個個人化的助理。Google即時資訊也顯示,Google對語音科技愈來愈感興趣。Google工程副總裁史考特.霍夫曼(Scott Huffman)向記者表示,人類能和電腦順利對話,「還是史上頭一遭。 [9]」

穩紮穩打的微軟Cortana

另一方面,微軟也開始體認到運算的未來在於對話,並且躍躍欲試。率先領航將這個願景化為現實的人是賴瑞.赫克(Larry Heck),他是對話式人工智慧大師,和切爾一樣都曾待過史丹佛國際研究院。早在二○○九年Siri尚未問世時,赫克就與人共同組織團隊,著手打造虛擬助理。他們構想的人工智慧比Siri更厲害,能夠模擬人類行政助理的能力,針對每個使用者個別的需求,掌握各種詳細資訊,包含行事曆與聯絡人等細節。而且微軟和蘋果不一樣,有自己的搜尋引擎——Bing。Bing的功能強大,微軟可用以提升人工智慧助理的問答能力。

儘管起步順利,但是微軟並未跟上蘋果和Google的腳步,快速推出實際的產品。微軟高層史特凡.韋茲(Stefan Weitz)於二○一三年接受CNET訪談時解釋,微軟想要先韜光養晦,等自家助理的能力超越Siri或Google即時資訊後再推出,因為他認為,Siri和Google即時資訊的能力還太有限。「我們的產品不只是循序漸進地改良原有科技,而是要徹底革故鼎新,唯有達到這個標準,才會正式推出。」韋茲說道 [10]。最終,在二○一四年四月間,微軟終於宣布發表自家的虛擬助理: Cortana。

Cortana上市後得到科技記者禮貌性讚揚,但是也僅止於此。蘋果在二○一一年率先推出這個未成熟的科技,的確因此受到批評,但同時也受到稱讚,畢竟它是開路先鋒。但是微軟到了二○一四年才發表智慧型手機虛擬助理,此時大家已經不覺得這是前所未有的創舉,反而覺得微軟在模仿別人。CNN科技版頭條就寫出這樣的觀感:「這是Cortana,微軟的Siri [11]。」儘管如此,Cortana仍然得到一些正面評價,微軟高層聽了肯定會開心擊掌。許多評論者認為,Cortana其實有條件和其他的語音助理競爭。Engadget上有一位評論家就寫道: Cortana「結合Google即時資訊的實用性,以及Siri的魅力 [12]。」

二○一四年秋季,在兩位競爭者的角逐下,Siri陷入泥淖,但是還不至於太過淒慘。蘋果不再擁有「先發」優勢,競爭對手迎頭趕上,公司管理階層內鬥持續上演,而且隔年有許多優秀的對話式人工智慧專家相繼出走。儘管如此,事情還是有正面的發展,Siri已經脫離早期亂象叢生的階段,並且日益成熟,現在可以處理數百萬使用者的需求,而且轉型為機器學習系統。根據一位蘋果高層的說法,Siri進行一次大腦移植。只要iPhone銷量持續突破新高,並創造巨大利潤,Siri仍是虛擬助理的主流。

蘋果之所以能占有語音運算龍頭地位,是因為那時候要使用語音運算科技,就必須透過智慧型手機。然而,亞馬遜在二○一四年十一月發表智慧型居家音響裝置Echo,突然出現一個全新的裝置類別,打破智慧型手機獨占語音運算科技的情形。此外,原本對智慧型手機來說,語音助理不過只是附加功能,但Echo 這個裝置的設計理念就是「人工智慧優先」,因此語音助理不是附加功能,而是整個產品的核心特色。

根據伯基表示,亞馬遜這麼做,讓蘋果看在眼裡很不是滋味。他說,蘋果「一開始傲慢輕視,但後來演變成慌張失措 [13]。」

臉書的虛擬助理M與Messenger上的聊天機器人

Alexa與Siri問世時都引起轟動,但是直到二○一六年上半年,這些科技巨頭才很湊巧地同時高聲宣布,運算的未來在於對話。

二○一六年一月三日,臉書執行長馬克.祖克柏(Mark Zuckerberg)為本年訂下基調,宣布要打造人工智慧助理,就像電影《鋼鐵人》(Iron Man)裡的賈維斯(Jarvis)那樣。祖克柏在臉書上貼文說道 [14]:「我會先教它辨識我講話的聲音,並透過它操控家裡的一切,包含音樂、照明、溫度等。」這個仿賈維斯的助理也會學習臉部辨識技術,祖克柏的朋友造訪,按門鈴時,它可以自動開門。此外。祖克柏還有一個一歲的女兒,名叫麥克絲(Max),賈維斯也可以監控女兒的房間,若是女兒需要照顧,就會通知祖克柏。

後來祖克柏花費一百至一百五十個小時才做出一個助理原型,這個助理就如同當初構想的,可以進行一般居家智慧管理,但是有時候會出包,例如,祖克柏坐下來要看電視時,它卻關掉祖克柏妻子居家辦公室的燈,而且有時候祖克柏的指令必須重複四次,賈維斯才會執行 [15]。但賈維斯有一個功能,是其他聊天機器人同好望塵莫及的。有一次在一場頒獎典禮上,祖克柏遇到摩根.費里曼(Morgan Freeman),並且說服費里曼幫他錄音,這樣賈維斯就可以用費里曼的聲音片段說話。(有人脈真好。)網路上有一支影片專門介紹這個系統的功能,影片裡,賈維斯用費里曼的聲音大喊:「開火啦!」同一時間,聲控的T恤大砲從衣櫥裡射出一件T恤給祖克柏穿。

賈維斯雖然是祖克柏的私人計畫,但也顯現出祖克柏對於對話運算興致勃勃,臉書也是如此。二○一五年八月,臉書開始進行虛擬助理測試,助理名叫M,可以透過文字訊息溝通,beta 版有數千位使用者參與測試。M的能力強大,就像是盡責的助理,東奔西跑,滿足嚴格老闆各式各樣的指示。一位有幸參與測試的使用者請M幫他訂了機票、找到有線電視費用的折扣、寫歌、寄送原創繪圖,並且訂了一杯南瓜肉桂拿鐵送到辦公桌,一邊工作,一邊喝 [16]。

臉書並沒有在一瞬間發明出比Siri和Cortana先進數百倍的人工智慧,其實使用者給M的指示,有時是人類團隊在背後處理的。這不是說臉書作弊,而是臉書的電腦科學家在訓練M,讓M學習人類助理的做事方法,包含使用的語言與做出的行動等。

M是一個長遠的研究計畫,並沒有在短期內推出產品。臉書的人工智慧與通訊產品經理凱末.艾爾.穆賈希德(Kemal El Moujahid)就說 [17]:「這個實驗想觀察使用者會詢問什麼問題,以及他們會如何詢問這些問題。」但是二○一六年四月,臉書召開年度開發者大會,祖克柏演講時卻宣布臉書即將推出一些對話式人工智慧科技。祖克柏率先表明,生活中遇到要向商家詢問事情時,沒有人喜歡親自打電話,也不會有人喜歡每用一個服務或每和一個商家接觸,就要另外安裝一個應用程式。「我們覺得和商家傳訊息,應該和向朋友傳訊息一樣輕鬆簡單。」祖克柏說。

接著,祖克柏向大家揭露一項新技術,這項技術讓開發人員能設計出迷你聊天機器人,在網路上自動回答顧客的問題並提供資訊。這些聊天機器人安裝在臉書的通訊軟體Messenger上,使用者只要把聊天機器人加入好友,就可以開始對話。祖克柏還展示傳訊息詢問CNN的聊天機器人,即可得知關於最高法院大法官提名或是關於茲卡病毒的消息。隨後,他透過免付費電話花店的聊天機器人訂購一束愛的擁抱(Love’s Embrace)花束。「我覺得有點諷刺。」祖克柏說:「現在要向免付費電話花店訂花,不需要再打電話了(-八○○是美國免付費電話的前幾個號碼,免付費電話花店就是以此命名)。」

註釋

[1] 切爾的這段話及本書之後引用他所說的話,除非另外註明,否則均出自切爾與本書作者的訪談,訪談日期為二○一八年四月十九日和二十三日。

[2] Farhad Manjoo, "SiriIs a Gimmick and a Tease," Slate, November 15, 2012.

[3] Bryan Fitzgerald, ”‘Woz’ gallops in to a horse’s rescue,” Albany Times Union, June 13, 2012.

[4] Yukari Iwatani Kane, Haunted Empire: Apple After Steve Jobs (New York: HarperCollins, 2014), 154.

[5] Aaron Tilley and Kevin McLaughlin, “The Seven-Year Itch: How Apple’s Marriage to SiriTurned Sour,” The Information, March14, 2018.

[6] Bosker, “SiriRising.”

[7] Tilley and McLaughlin, “The Seven-Year Itch.”

[8] 伯基與本書作者的訪談,訪談日期為於二○一八年六月十九日。

[9] Megan Garber, “Sorry, Siri: How GoogleIs Planning to Be Your New Personal Assistant,” The Atlantic, April 29, 2013.

[10] Dan Farber, “Microsoft’s Bing seeks enlightenment with Satori,” CNET, July 30, 2013.

[11] Adrian Covert, “Meet Cortana, Microsoft’s Siri,” CNN Tech, April 2, 2014.

[12] Chris Velazco, “Living with Cortana, Windows 10’s thoughtful, flaky assistant,” Engadget, July 30, 2015.

[13] 伯基與本書作者的訪談。

[14] Mark Zuckerberg, “Building Jarvis,” Facebook blog, December 19, 2016.

[15] Daniel Terdiman, “At Home With Mark Zuckerberg And Jarvis, The AI Assistant He Built For His Family,” Fast Company,December 19, 2016.

[16] Alex Kantrowitz, “Facebook Reveals The Secrets Behind ‘M,’ Its Artificial Intelligence Bot,” BuzzFeed, November 19, 2015.

[17] 穆賈希德與本書作者的訪談,訪談日期為二○一七年九月二十九日。

書籍介紹

本文摘錄自《聲控未來:引爆購物、搜尋、導航、語音助理的下一波兆元商機》,商周出版
*透過以上連結購書,《關鍵評論網》由此所得將全數捐贈聯合勸募

作者:詹姆士・弗拉霍斯(James Vlahos)
譯者:孔令新

「出一張嘴」就能做到一切的時代即將來臨,
聲控將取代觸控,語音裝置將取代智慧型手機!

當搜尋只能提供一個答案,搜尋排名與關鍵字廣告該何去何從?
當語音機器人直接告訴消費者答案,消失的網站流量會造成多大衝擊?
當語音助理可以為使用者服務一切,誰還需要下載五花八門的App?……
下一波最主要的科技變革,將為你我帶來全新的衝擊與想像!

  • 2021年,全球語音識別市場將逼近160億美元
  • 2020年,50%的手機搜尋是透過語音進行
  • 遊戲、搜尋、購物、外送、App使用行為將徹底變革

你是否想像過靠語音開啟的一天?語音助理在預設的時間喚醒你,提醒你今天早上的會議地點,順便幫你在星巴克訂購一份早餐,為你規劃不塞車的通勤路程,同時告知哪裡還有空的停車位……。

這些囊括生活每個層面的商機,早已是Google、亞馬遜(Amazon)、蘋果(Apple)與微軟(Microsoft)的兵家必爭之地,下一波科技巨浪──語音運算(voice computing),將引發購物、搜尋、廣告、語音助理等眾多產業的海嘯,例如語音購物的總產值現在是一年20億美元,到了2022年將成長到400億美元;家裡有亞馬遜Alexa裝置的人,每年花費在亞馬遜商城的錢更比一般消費者多出66%!

本書全面而完整地探討聲控經濟,從第一篇的科技巨頭之戰,到第二篇的語音技術如何突破,再到第三篇聲控對於人類生活的深層影響,包括聲紋紀錄造成的隱私議題,語音助理的情感倫理問題,甚至聊天機器人如何讓已逝者永垂不朽……,本書將讓我們看見這波驚人的商機與石破天驚的變化。

getImage-2
Photo Credit: 商周出版

責任編輯:潘柏翰
核稿編輯:翁世航

或許你會想看
更多『書摘』文章 更多『科學』文章 更多『精選書摘』文章
Loader