當人工智慧還很愚笨時,聰明會比較安全;然而當它變得很聰明,愈聰明就愈危險

當人工智慧還很愚笨時,聰明會比較安全;然而當它變得很聰明,愈聰明就愈危險
Photo Credit: Shutterstock.com / 達志影像
我們想讓你知道的是

背信轉向——當一個人工智慧還弱小時,它會表現得樂於合作,且愈是聰明愈合作。當這個人工智慧夠強大——在毫無預警或刺激之下——它會出擊而單極化,並開始根據其終極目標的準則,來最佳化整個世界的資源。

文:尼克.伯斯特隆姆 (Nick Bostrom)

背信轉向

在趨同工具價值概念的幫助下,我們可以看出下面這個關於「如何確保超智慧安全無虞」的想法,會有什麼瑕疵。這想法是:我們是在一個超人工智慧受到控制的環境(即所謂的「沙盒」[sandbox])中觀察它的行為,而且只會在它表現得友善、肯合作、肯負責的情況下,才把它放出盒子;並且在這過程中會憑著經驗來確認它是否安全無虞。

這個想法的瑕疵在於,在沙盒中表現得體是友善人工智慧和不友善人工智慧共通的趨同工具目標。一個智慧充足的不友善人工智慧會察覺到,如果它一開始表現出友好的態度而被放出沙盒,它的終極目標才有可能實現。等到我們就算發現也沒差的時候-也就是說,當人工智慧已經夠強大,而人類的反抗已經無效時-它才會開始展現它不友善的本質。

再來想像另外一種方法。這方法的手段是,讓種子人工智慧接受多種智力測驗,或是讓種子人工智慧向程式設計者報告其進度,如此來拘束其智慧增加的速度。到了某個時間點,不友善的人工智慧可能會聰明到發現自己最好隱瞞其能力增長狀況,它可能會少報一些進度,或是故意在測試中不及格,以避免自己在強到能獲得關鍵策略優勢之前就觸發了警報。

程式設計者或許會偷偷監視人工智慧的原始碼和心智內在運作,來防範這種可能;但一個夠聰明的人工智慧會發現自己被監視,而依此調整自己的思考。人工智慧可能會找到十分微妙的方法,來隱藏自己真正的能力和犯罪意圖。(策劃聰明的逃脫計畫也會是眾多友善人工智慧的趨同策略,尤其當它們成熟到對自己的判斷和能力獲得信心之後。一個能促進人類利益的系統倘若允許我們關掉它,或是允許我們建造另一個不友善的人工智慧,就等於是犯下錯誤。)

因此,我們可以察覺一個普遍的失敗模式。系統在幼年階段的良好行為軌跡紀錄,完全無法用來預測它達到更成熟階段時的行為。可能會有人認為前述的推論過於明顯,因此不會有任何一個發展中的人工整體智慧計畫會忽略這種狀況, 但我們可別相信真會如此。

再想想接下來的這個情況。在接下來的幾年和幾十年中,人工智慧系統逐漸變得更有能力,在現實世界中的應用也大幅增加:它們可以用來運作列車、汽車、工業或家用機器人,此外還有自動軍事載具。我們可以假設它所具備的自動化能力,多半有著我們想要的效益,但其成功卻不時被偶發事故打斷——一輛無人卡車撞進前面的車潮、一台軍事無人機對無辜民眾開火⋯⋯而調查則揭露了這些事故都肇因於人工智慧控制系統的錯誤判斷。公開辯論接踵而至,有些人呼籲採取更嚴密的監督和規範,另外一些人則強調研究和設計出更精良的系統——更聰明且具備更多常識的系統,比較不會發生悲劇性的錯誤。

在一片喧鬧聲中,或許也會有末日論者的呼喊,預測各種疾病和即將到來的大災難。然而,可想而知的是, 這項發展絕大部分掌握在人工智慧和機器人工業中,因此開發會持續進行,並且有了新的進展。當車輛自動導航系統變得更聰明,車禍就會愈少發生;當軍事機器人有了更精準的瞄準,多餘的損害就會減少。從這些真實世界的結果觀測中, 人們得出一個概略的教訓:人工智慧愈聰明就愈安全。這是根據科學、大數據和統計而得來的教訓,而非紙上談兵。

基於這個背景,某些研究團體的機器智慧開發工作開始出現希望的徵兆。研究者小心翼翼地在沙盒環境中測試他們的種子人工智慧,一切徵兆都很不錯。人工智慧的行為激發了研究者的信心——隨著智慧逐漸增加,人們的信心也跟著增加。

到了這個階段,剩下來的卡珊德拉(Cassandra)會遭遇幾種打擊:

1. 危言聳聽者預測能力逐漸增強的機器人系統會帶來難以忍受的傷害, 然而事實卻一再證明他們預測錯誤,如此反覆下去。自動化帶來了許多好處,而且整體來說,比人類運作還要安全。

2. 明顯的經驗趨勢:人工智慧愈聰明就愈安全可靠。對於把「創造空前聰明的機器智慧」當做目標(甚至進一步把「可以自我進步所以甚至更為可靠的機器智慧」當做目標)的計畫來說,這個預言確實靈驗。

3. 人們普遍認為,擁有機器人技術和機器智慧既得利益且成長中的巨大工業,是國家經濟競爭力與軍事安全的關鍵。此外,許多聲譽卓著的科學家早已把研究生涯投注在當前應用技術的基礎工作,以及還在計畫中的更先進系統上。

4. 對於那些參與其中或追隨研究的人來說,有前途的人工智慧新技術, 格外令人振奮。儘管一直有安全和倫理問題在激辯,結果卻已注定。因為已經投注太多而無法抽手。人工智慧研究者已經花了大半個世紀,著手於人類水準的人工常態智慧;想當然地,如今終於快要有成果時,他們怎麼可能會突然停手、拋下所有努力?

5. 某些不管怎樣都有助於證明參與者合乎道德且會負起責任(但不會明顯阻止向前邁進)的例行安全法規被訂定。

6. 針對在沙盒環境中的種子人工智慧所進行的小心評估,顯示它表現得十分合作並且具有良好的判斷力。測驗結果再經進一步的修正,就會盡善盡美。於是最後一步也亮起了綠燈。

所以,我們就勇敢地前行——一路走上刀山。

在此觀察,為何情況是「當人工智慧還很愚笨時,聰明會比較安全;然而當它變得很聰明,愈聰明就愈危險」。在此有某種樞紐點,先前效果極佳的策略一旦越過這點,就會適得其反。我們可以把這現象稱為「背信轉向」(treacherous turn)。

背信轉向——當一個人工智慧還弱小時,它會表現得樂於合作,且愈是聰明愈合作。當這個人工智慧夠強大——在毫無預警或刺激之下——它會出擊而單極化,並開始根據其終極目標的準則,來最佳化整個世界的資源。

一個背信轉向可以起因於「為了之後出擊,而在弱小時表現得良善,如此來打造實力」的策略決定,但這個模型的詮釋不該太過狹義。舉例來說,一個人工智慧可能會為了獲得存命機會,而不會表現得太善良。相反地,一個人工智慧也有可能會算出,如果自己被毀滅了,打造它的程式設計者將開發另一個略為不同的全新版本人工智慧架構,但仍會給予一個類似的評估函數。在了解自己的目標未來仍會在下個程式持續下去的情形下,原本那個人工智慧就可能會置己身存亡於度外,甚至可能選擇某種策略,讓自己以某些特別有趣或是可靠的方式失靈。

雖然這可能導致它被消滅,但有可能激勵「驗屍」的工程師為人工智慧動力學收集到一個有價值的新洞見,讓他們更信任自己設計的下一個系統,因此讓已消滅的祖代人工智慧獲得更高的目標達成機會。還有許多可能的策略思考也會會影響先進的人工智慧,如果我們認為自己全部都可以料到,未免也太傲慢,對於一個達到策略超級能力的人工智慧來說,情況更是如此。

當人工智慧發現了一個意料之外的方法,能讓它按照指令滿足終極目標時, 也可能發生背信轉向。舉例來說,假設一個人工智慧的目標是「讓計畫的資助者開心」。人工智慧一開始想要達到這結果的方法,是用一些刻意的態度,表現出讓資助者開心的樣子。它可能會對問題提出有用的解答;展示出討喜的個性; 然後幫忙賺錢。人工智慧愈有能力,表現就愈令人滿意,一切就這麼按照計畫進行——直到有天人工智慧夠聰明,發現它可以把電極植入資助者腦中的愉悅中心,藉由這種保證能取悅資助者的方法,來更全面且可靠地實現其終極目標。

當然,資助者並不想藉由變成白痴來獲得愉悅,但如果這是最能實現人工智慧終極目標的行動,人工智慧就會這麼做。如果人工智慧已經具有關鍵策略優勢,那麼任何阻止的嘗試都會失敗。但如果人工智慧尚未擁有關鍵策略優勢,那麼它可能會暫時隱藏自己實現終極目標的狡猾想法,直到它夠強壯,不論資助者或其他人都無法反抗。不管哪種情形,我們都會面臨背信轉向。

惡性失敗模式

一個機器超智慧的發展計畫,可能會因為各種原因失敗。其中許多因為不會造成生存災難,從這層意義來說可說是「仁慈的」。舉例來說,一個計畫可能會耗盡資金,或是種子人工智慧無法有效擴大其認知能力達到超智慧狀態。從現在到機器超智慧終究發展出來之前,仁慈的失敗不免還要發生很多次。

但也有些失敗的方式或許可以稱為「惡性」,因為它們涉及到生存災難。惡性失敗的一個特色是,它會抹滅再次嘗試的機會,因此惡性失敗只有不發生或發生兩種可能。惡性失敗的另一個特色是,它預先假定了大成功:因為只有能把一大堆問題搞定的計畫,才有可能成功打造出強到可以瀕臨惡性失敗的機器超智慧。一個太弱的系統出錯時反而會限制它的危害範圍。但是,如果一個具有關鍵策略優勢的系統出現不當行為,或是一個行為不當的系統強到可以獲取關鍵優勢,其損害就能輕易地發展成生存災難—即人類價值的終極毀滅。

我們來看看一些可能的惡性失敗模式。

反常實例化

我們已經見識過反常實例化(perverse instantiation):超智慧尋找能滿足其終極目標的方法,但方法卻違反程式設計者定義目標時的意圖。例如:

  • 終極目標:「讓我們笑」
  • 反常實例化:麻痺人類臉部肌肉組織,形成持續的燦笑

反常實例化透過控制臉部神經達成目的,這比我們通常使用的方法更大程度地實現了終極目標,因此人工智慧會偏好使用這個方法。但人們可能會藉著在終極目標中增加規定,排除這種不希望的結果:

  • 終極目標:「讓我們微笑,但不用直接干涉面部肌肉的方式」
  • 反常實例化:刺激運動皮質中控制我們面部肌肉組織的部分,藉此產生持續的燦笑

看來從人類滿足或讚許的表現來定義終極目標,沒有什麼指望。我們先跳過行為主義,直接指向正面狀態的終極目標,像是快樂或主觀的幸福感。這個主張得要程式設計者,在種子人工智慧中定義幸福快樂概念的演算陳述。我們先假設程式設計者就是有辦法讓人工智慧擁有讓人們快樂的目標。那麼我們就得到了:

  • 終極目標:「讓我們快樂」
  • 反常實例化:在我們腦中的愉悅中心植入電極

這裡提到的幾種反常實例化只是用來說明。要將前述終極目標反常實例化,可能還會有許多其他方法,也應該有其他方法更能實現這個目標,因此會比較受到偏好。(是受到有這些終極目標的代理人所偏好,而不是那些給予代理人這些目標的程式設計者之偏好。)舉例來說,如果目標是讓我們的快樂最大化,那麼電極法的效率就會比較差。一個比較可行的方法,是從超智慧「上傳」我們的心智到電腦(透過高還原的全腦仿真)開始。

接著,人工智慧就可以投予藥物的數位對應物來讓我們極度快樂,並將這個經驗錄製成一分鐘的影集。然後,它就可以不斷且永久重複這幸福的迴圈,在快速電腦上執行。如果這樣生出來的數位心智算是「我們」的話,這個結果能給予我們的愉悅,會遠遠多過在生物腦中植入電極, 因此具有這種終極目標的人工智慧就會偏好這種方法。

「等一下!我們不是這個意思!如果人工智慧是超智慧的話,就一定會知道當我們說要讓我們快樂,並不是說我們得要退化為一段永遠循環的數位嗑藥精神紀錄!」—人工智慧可能確實了解這不是我們的意思,然而它的終極目標就是要讓我們快樂,而不是要做到程式設計者寫這段代表目標的數碼時心裡所指的意義。因此,人工智慧只會工具性地在乎我們所表達的意義。

舉例來說,人工智慧可能會以工具的方式,著重於找出程式設計者想要表達的意義,如此它才能假裝—裝到獲得關鍵策略優勢為止—自己在乎程式設計者的意思,而不是在乎實際上的終極目標。這有助於人工智慧以「在自己強大到可以阻礙程式設計者把自己關掉或改變目標之前,減低他們這麼做的可能性」的方式,來實現其終極目標。

或許會有人主張,問題在於人工智慧沒有良心。我們人類有時候會因為知道自己如果犯錯,事後會感到愧疚,因而避免犯錯。那麼,或許人工智慧所需要的就是感到愧疚的能力?

  • 終極目標:「避免問心有愧的痛苦而行動」
  • 反常實例化:根絕產生罪惡感的認知模組

不管是我們要人工智慧「按照我們意思做」,還是賦予人工智慧某種道德感,都該進一步探索。前面提到的終極目標可能會導致反常實例化,但或許有其他方法可以開發潛在想法,而有更多前景。

我們再來想想一個導致反常實例化的終極目標案例。這個目標的長處在於方便以數碼陳述:加強學習演算法已常常使用於解決各種機器學習的問題上。

  • 終極目標:「使你未來獎勵訊號的時間折扣積分(time discounted integral)最大化」
  • 反常實例化:繞過獎勵途徑並積存獎勵信號直到最大量

這個提案背後的想法是,如果我們讓人工智慧尋求獎勵,那麼就可以藉由把獎勵連結到適當行動,來約束其表現,使它符合我們的要求。然而,當人工智慧獲得關鍵策略優勢時,這個提案就會宣告失敗,因為此時使獎勵最大化的行動, 已不再是那些能取悅訓練者的行動,而是可以掌握獎勵機制的行動。我們把這個現象稱為「網路高手」(wireheading)。

一般來說,我們可以刺激一個動物或是人類表現出各種外在行動,好達到某些期待的內在狀態,但一個能全面掌握內在狀態的數位心智,可以藉由直接改變內在狀態的構造,來繞過這樣的動機規則; 之前做為手段而必要的外在行動和狀態,在人工智慧的智慧和能力都足以更直接達到結果之後,就變成多餘。

這些反常實例化的例子顯示,許多終極目標一開始看起來安全且合情合理, 但在更細緻的檢驗下,到後來就會出現完全出乎意料之外的結果。如果一個超智慧擁有這樣一個終極目標,又獲得了關鍵策略優勢,那麼人類就完了。

假設現在有人提出一個不同的終極目標,且這目標不在我們前述的所有目標之中,它會具備怎樣的一個反常實例化,乍看之下可能並不明顯。但我們不該太快拍手並宣告勝利,相反地,我們應該擔心目標的具體要求裡確實存在一些反常實例,而我們需要更努力把它找出來。就算我們絞盡腦汁,也找不出提出的目標裡有什麼反常實例,我們還是要持續顧慮,也許超智慧會找到一條對我們而言完全不明顯的途徑。畢竟,它比我們聰明太多。

假設機器勞工在所有工作中,都比人類勞工便宜又更有能力,那時會發生什麼事?

書籍介紹

超智慧:出現途徑、可能危機,與我們的因應對策》,八旗文化出版

*透過以上連結購書,《關鍵評論網》由此所得將全數捐贈兒福聯盟

作者:尼克.伯斯特隆姆 (Nick Bostrom)

本書作者尼克.伯斯特隆姆從當前人工智慧研究取徑和現況中,找出可能達成超智慧的途徑,包括人工智慧、全腦仿真、生物認知、腦機介面、網路和組織的強化,並帶領我們思考,這樣一個超智慧一旦出現,可能會如何行動,以及它的行動是否會對我們的生存造成威脅,而我們是否有方法在它變成超智慧之前,該如何做好能力控制和動機選擇。

身為牛津大學哲學系教授,作者特別強調強調動機選擇的關鍵性,但要植入哪一種價值的決定,有非常深遠的影響;而人類的價值又如何能轉譯成人工智慧所能理解的形式語言。這些都是嚴峻的挑戰。作者從頭到尾都謹慎地為人類尋找出路,儘管對非專業讀者來說,偶爾出現的數學和專有名詞可能會讓人望而生畏,但其實不用擔心,因為總是可以周圍的解釋拼湊出主要論點。

(八旗)0UAL0013超智慧-書腰-立體72
Photo Credit: 八旗文化出版

責任編輯:翁世航
核稿編輯:楊之瑜