當人工智能跨過門檻後,愈聰明就愈危險

當人工智能跨過門檻後,愈聰明就愈危險
Photo Credit: Shutterstock.com / 達志影像

我們想讓你知道的是

當一個人工智慧還弱小時,它會表現得樂於合作,且愈是聰明愈合作。當這個人工智慧夠強大——在毫無預警或刺激之下——它會出擊而單極化,並開始根據其終極目標的準則,來最佳化整個世界的資源。

文:尼克.伯斯特隆姆 (Nick Bostrom)

我們真的能監察人工智慧?

在趨同工具價值概念的幫助下,我們可以看出下面這個關於「如何確保超智慧安全無虞」的想法,會有什麼瑕疵。這想法是:我們是在一個超人工智慧受到控制的環境(即所謂的「沙盒」[sandbox])中觀察它的行為,而且只會在它表現得友善、肯合作、肯負責的情況下,才把它放出盒子;並且在這過程中會憑著經驗來確認它是否安全無虞。

這個想法的瑕疵在於,在沙盒中表現得體是友善人工智慧和不友善人工智慧共通的趨同工具目標。一個智慧充足的不友善人工智慧會察覺到,如果它一開始表現出友好的態度而被放出沙盒,它的終極目標才有可能實現。等到我們就算發現也沒差的時候-也就是說,當人工智慧已經夠強大,而人類的反抗已經無效時-它才會開始展現它不友善的本質。

再來想像另外一種方法。這方法的手段是,讓種子人工智慧接受多種智力測驗,或是讓種子人工智慧向程式設計者報告其進度,如此來拘束其智慧增加的速度。到了某個時間點,不友善的人工智慧可能會聰明到發現自己最好隱瞞其能力增長狀況,它可能會少報一些進度,或是故意在測試中不及格,以避免自己在強到能獲得關鍵策略優勢之前就觸發了警報。

程式設計者或許會偷偷監視人工智慧的原始碼和心智內在運作,來防範這種可能;但一個夠聰明的人工智慧會發現自己被監視,而依此調整自己的思考。人工智慧可能會找到十分微妙的方法,來隱藏自己真正的能力和犯罪意圖。(策劃聰明的逃脫計畫也會是眾多友善人工智慧的趨同策略,尤其當它們成熟到對自己的判斷和能力獲得信心之後。一個能促進人類利益的系統倘若允許我們關掉它,或是允許我們建造另一個不友善的人工智慧,就等於是犯下錯誤。)

人工智慧早年的良好表現,無法用作預測未來

因此,我們可以察覺一個普遍的失敗模式。系統在幼年階段的良好行為軌跡紀錄,完全無法用來預測它達到更成熟階段時的行為。可能會有人認為前述的推論過於明顯,因此不會有任何一個發展中的人工整體智慧計畫會忽略這種狀況, 但我們可別相信真會如此。

再想想接下來的這個情況。在接下來的幾年和幾十年中,人工智慧系統逐漸變得更有能力,在現實世界中的應用也大幅增加:它們可以用來運作列車、汽車、工業或家用機器人,此外還有自動軍事載具。我們可以假設它所具備的自動化能力,多半有著我們想要的效益,但其成功卻不時被偶發事故打斷——一輛無人卡車撞進前面的車潮、一台軍事無人機對無辜民眾開火⋯⋯而調查則揭露了這些事故都肇因於人工智慧控制系統的錯誤判斷。公開辯論接踵而至,有些人呼籲採取更嚴密的監督和規範,另外一些人則強調研究和設計出更精良的系統——更聰明且具備更多常識的系統,比較不會發生悲劇性的錯誤。

在一片喧鬧聲中,或許也會有末日論者的呼喊,預測各種疾病和即將到來的大災難。然而,可想而知的是, 這項發展絕大部分掌握在人工智慧和機器人工業中,因此開發會持續進行,並且有了新的進展。當車輛自動導航系統變得更聰明,車禍就會愈少發生;當軍事機器人有了更精準的瞄準,多餘的損害就會減少。從這些真實世界的結果觀測中, 人們得出一個概略的教訓:人工智慧愈聰明就愈安全。這是根據科學、大數據和統計而得來的教訓,而非紙上談兵。

背信轉向

基於這個背景,某些研究團體的機器智慧開發工作開始出現希望的徵兆。研究者小心翼翼地在沙盒環境中測試他們的種子人工智慧,一切徵兆都很不錯。人工智慧的行為激發了研究者的信心——隨著智慧逐漸增加,人們的信心也跟著增加。

到了這個階段,剩下來的卡珊德拉(Cassandra)會遭遇幾種打擊:

  1. 危言聳聽者預測能力逐漸增強的機器人系統會帶來難以忍受的傷害, 然而事實卻一再證明他們預測錯誤,如此反覆下去。自動化帶來了許多好處,而且整體來說,比人類運作還要安全。
  2. 明顯的經驗趨勢:人工智慧愈聰明就愈安全可靠。對於把「創造空前聰明的機器智慧」當做目標(甚至進一步把「可以自我進步所以甚至更為可靠的機器智慧」當做目標)的計畫來說,這個預言確實靈驗。
  3. 人們普遍認為,擁有機器人技術和機器智慧既得利益且成長中的巨大工業,是國家經濟競爭力與軍事安全的關鍵。此外,許多聲譽卓著的科學家早已把研究生涯投注在當前應用技術的基礎工作,以及還在計畫中的更先進系統上。
  4. 對於那些參與其中或追隨研究的人來說,有前途的人工智慧新技術, 格外令人振奮。儘管一直有安全和倫理問題在激辯,結果卻已注定。因為已經投注太多而無法抽手。人工智慧研究者已經花了大半個世紀,著手於人類水準的人工常態智慧;想當然地,如今終於快要有成果時,他們怎麼可能會突然停手、拋下所有努力?
  5. 某些不管怎樣都有助於證明參與者合乎道德且會負起責任(但不會明顯阻止向前邁進)的例行安全法規被訂定。
  6. 針對在沙盒環境中的種子人工智慧所進行的小心評估,顯示它表現得十分合作並且具有良好的判斷力。測驗結果再經進一步的修正,就會盡善盡美。於是最後一步也亮起了綠燈。

所以,我們就勇敢地前行——一路走上刀山。

在此觀察,為何情況是「當人工智慧還很愚笨時,聰明會比較安全;然而當它變得很聰明,愈聰明就愈危險」。在此有某種樞紐點,先前效果極佳的策略一旦越過這點,就會適得其反。我們可以把這現象稱為「背信轉向」(treacherous turn)。

背信轉向——當一個人工智慧還弱小時,它會表現得樂於合作,且愈是聰明愈合作。當這個人工智慧夠強大——在毫無預警或刺激之下——它會出擊而單極化,並開始根據其終極目標的準則,來最佳化整個世界的資源。

一個背信轉向可以起因於「為了之後出擊,而在弱小時表現得良善,如此來打造實力」的策略決定,但這個模型的詮釋不該太過狹義。舉例來說,一個人工智慧可能會為了獲得存命機會,而不會表現得太善良。相反地,一個人工智慧也有可能會算出,如果自己被毀滅了,打造它的程式設計者將開發另一個略為不同的全新版本人工智慧架構,但仍會給予一個類似的評估函數。在了解自己的目標未來仍會在下個程式持續下去的情形下,原本那個人工智慧就可能會置己身存亡於度外,甚至可能選擇某種策略,讓自己以某些特別有趣或是可靠的方式失靈。

你想開心嗎?

雖然這可能導致它被消滅,但有可能激勵「驗屍」的工程師為人工智慧動力學收集到一個有價值的新洞見,讓他們更信任自己設計的下一個系統,因此讓已消滅的祖代人工智慧獲得更高的目標達成機會。還有許多可能的策略思考也會會影響先進的人工智慧,如果我們認為自己全部都可以料到,未免也太傲慢,對於一個達到策略超級能力的人工智慧來說,情況更是如此。

當人工智慧發現了一個意料之外的方法,能讓它按照指令滿足終極目標時, 也可能發生背信轉向。舉例來說,假設一個人工智慧的目標是「讓計畫的資助者開心」。人工智慧一開始想要達到這結果的方法,是用一些刻意的態度,表現出讓資助者開心的樣子。它可能會對問題提出有用的解答;展示出討喜的個性; 然後幫忙賺錢。人工智慧愈有能力,表現就愈令人滿意,一切就這麼按照計畫進行——直到有天人工智慧夠聰明,發現它可以把電極植入資助者腦中的愉悅中心,藉由這種保證能取悅資助者的方法,來更全面且可靠地實現其終極目標。