當納許的賽局理論面臨現實挑戰,我們真能走向雙贏的「美麗境界」嗎?

當納許的賽局理論面臨現實挑戰,我們真能走向雙贏的「美麗境界」嗎?
Photo Credit:臉書活動 Movie Night in Memory of John Nash

我們想讓你知道的是

「矛盾在於,我們對理性的概念並非固定。當某種『理性行為』失敗時,我們期望『真正理性』的人把事情重新思考一遍,提出新的行為。」

文:王薈鈞

5月23日,諾貝爾經濟學獎得主約翰‧納許(John Nash)與妻子艾莉西亞(Alicia Nash)因車禍意外過世,學界一遍哀働。

對於納許之死,他所任教的普林斯頓大學校長艾斯格魯伯(Christopher L. Eisgruber):「約翰的卓越成就激勵了數代的數學家、經濟學家與科學家。他與夫人艾莉西亞的故事,更是感動了數以百萬計的閱聽人,因為他倆在面對令人畏懼的挑戰時,展現了無比的勇氣。」

納許對賽局理論的貢獻顯著,且他在飽受精神疾病所苦後仍持續鑽研,致力於建構合作賽局理論。你可能會以為賽局理論艱深而難以理解,其實生活中許許多多的決策,小至告白、大至冷戰都受賽局所影響。

相關文章:

Photo Credit:官德星老師

納許的910研究室。Photo Credit:官德星老師

賽局理論到底在研究什麼?

賽局理論又可稱為「互動決策理論」,簡單來說就是針對一群完全理性的決策者在決策時,追求個人利益極大的策略討論。

最早時學者先由遊戲帶入理論進行討論,凸顯賽局理論和機率論的區別。以撲克牌為例,普通的玩家僅是天真的計算手上的牌比對手好的機率,並根據牌的好壞下注。

牌局中,好的玩家不會只靠機率來獲得勝利,而會依照局中人的行動決定下一步,有時還會試圖欺騙對手。而在訊息不透明狀況下,雙方都可能會虛張聲勢,於是策略的決定就顯得非常重要。

究竟誰是賽局之父?

講到賽局理論一般人印象最深刻的人物非納許莫屬,1994年納許與加州柏克萊大學的哈桑尼(J.C.Harsanyi)及德國波恩大學的賽爾登(R.Selton)等賽局理論研究者共同獲得諾貝爾經濟學獎,使得賽局理論受到更多人的關注。

但是,在此之前賽局理論究竟是如何形成的呢?

早在1921年,法國數學家波萊爾(Emile Borel),就發表了很多篇關於遊戲理論的論文。他用撲克牌作為例子,考慮了在不完全訊息之下的欺騙問題。但由於波萊爾並沒有針對這個議題繼續深入發表論文,且後人並未特別提及他對賽局理論的貢獻,使人們長期以來低估他的研究。

1944年馮紐曼(John Neumann)與普林斯頓經濟學家摩根斯坦(Morgenstern)合作出版《賽局理論與經濟行為》,進一步將賽局理論應用於經濟行為的分析上。這本書標誌著現代系統賽局理論的的初步形成,因此馮紐曼被尊稱為「賽局理論之父」。

賽局理論中的「囚犯困境」,則是1950年由弗勒德(Merrill Flood)和德雷希爾(Melvin Dresher)提出,後由塔克(Albert Tucker)命名,而納許是在1951年完成的博士畢業論文中,提出了「納許均衡」(Nash equilibrium)概念,為賽局理論中的一項重要突破。

Photo Credit:brewbooks CC BY 2.0

Photo Credit:brewbooks CC BY 2.0

「坦白從寬、抗拒從嚴」之下產生的囚犯困境

囚犯困境的背景假設是這樣的:

警方逮捕兩名嫌疑犯,但沒有足夠的證據指出兩人有罪。於是警方將兩人分開審訊,並分別向他們提出這樣的選擇條件:

  • 若一人認罪並作證指控對方,而對方保持沉默。認罪的一方無罪獲釋,沉默者將判刑5年。
  • 若兩人都否認犯罪,則兩人同樣判刑1年。
  • 若兩人都招供認罪,則兩人同樣判刑3年。

圖表製作:王薈鈞

以犯人1的角度看:若犯人2選擇招供,犯人1也會選擇招供,因為選擇否認刑期5年大於招供的刑期3年;若犯人2選擇否認,犯人1還是會選擇招供,因為選擇否認刑期1年大於招供的刑期0年。所以對犯人1來說,選擇招供對他是較為有利的。

這樣的思維對於在犯人2的角度之下也是成立的,於是雙方最後都會在「理性思考」之下選擇招供做為自己的策略,最後雙雙被判刑3年。

這樣的結果符合賽局理論中「優勢策略」和「納許均解」的定義:

  • 優勢策略:不論對方採取何種策略(招供或否認),選擇此策略對我方都較有利。
  • 納許均解:在不合作賽局之下,如果某一組策略是納許均衡,任何一個參與者都沒有誘因單獨改變自己的策略,故形成一種均衡。

但是,雙方都選擇否認,不是比選擇招供更好嗎?沒錯,在囚犯困境中雙方的確有誘因合作,不過若在雙方沒有良好的信賴基礎下達成協議,雙方也都有誘因背叛。試想犯人1在知道犯人2會否認的情況下選擇招供呢?結果就是犯人1會被釋放,而犯人2將會面對5年的刑期。同理而言犯人2也可能會違反協議,所以要達成協議雙方都會面臨不小的風險。

從二戰到核武競賽   先放棄的就是膽小鬼?

膽小鬼遊戲這個概念最早出現在1955 年詹姆士迪恩的電影〈養子不教誰之過〉(Rebel without a cause)中。

Photo Credit: Corbis/達志影像

Photo Credit: Corbis/達志影像

電影主角在學校和流氓發生衝突,他同意通過玩夜間的飛車遊戲來解決分歧。兩人跳進偷來的汽車裡,開車衝向懸崖邊,第一個跳出車來的就是膽小鬼,將會受到眾人的嘲笑。

最後主角安全的跳出車來,可是流氓卻因為大衣掛在了車門把手上不能脫手,掉下山崖死了,影片最終以悲劇收尾。

1959年,著名學者羅素(Bertrand Russell)發表《常識和核武戰爭》(Common Sense and Nuclear Warfare),書中寫到:

一些頹廢青年經常玩一種叫「膽小鬼」的遊戲,玩法是挑選一條筆直的大道,中間畫一條白線。兩輛車分別從兩頭出發,如果一方先讓自己的車輛離開白線,另一人就會衝向他大喊「膽小鬼」,讓他成為被嘲笑的對象。

當一些名聲顯赫的政治家玩起這種遊戲時,拿來冒險的就不只是他們自己的生命,還有千千萬萬人的生命。有人認為兩邊的政治家中只有一邊表現出高度的智慧和勇氣,另一邊的政治家則應受責難。這當然很荒謬,雙方都應該為玩這種不可思議的遊戲而受到譴責。

將美蘇核武競賽與膽小鬼遊戲結合:

Nash均衡為(踩油門,打方向盤),(打方向盤,踩油門),意即兩方做出完全相反的決策。

在蘇俄尚未研發出原子彈時,不少學者鼓吹美國進行「預防性戰爭」。他們相信若美國對蘇俄投下原子彈,蘇俄很快便會投降。原子彈計畫的領導者馮紐曼(John von Neumann)曾這樣說:「如果你問我為什麼明天不用原子彈去轟炸他們,我會問為什麼不今天就去轟炸呢?如果你說今天五點鐘去轟炸蘇俄,那我要問為什麼不今天一點鐘就去轟炸呢?」

事實上,根據理性的策略選擇,如果對方可能選擇不踩油門(假定你知道對方快沒油了或是對方的油門壞了),我方當然應該選擇踩油門才對。我方勝利而對方是膽小鬼這個結果當然比兩個人都是膽小鬼要好。

不過,這種損人利己的觀念受到很大的質疑。在各方輿論的阻撓下,預防性戰爭終究無法進行,且不久之後,蘇俄也擁有了原子彈,情勢開始更加緊繃。

1962年10月的古巴危機是全世界最接近核戰的時刻。膽小鬼遊戲進行到了最高潮,遊戲開始了,該怎麼和平結束呢?

方法一,你必須展現打死不退的精神,例如把方向盤拆掉或是弄壞煞車器。只要對方確定你採取的策略是踩油門,他必定會以轉彎為己身的策略,避免最糟的情況發生。

方法二,求助善意的第三方來協調。

Photo Credit:wikimedia

Photo Credit: wikimedia

在古巴危機中,羅素和教宗若望二十三世擔任了善意的第三方這個角色。他們的居中協調,對於解決僵局起了一定的作用。

在膽小鬼難題中,挽回面子正是雙方最需要的。當一方能夠找到藉口做出讓步,膽小鬼的僵局就此解開。古巴危機之後,美蘇雙方開始協商,並建立了「熱線」以便在緊急情況下可立即溝通避免衝突升級。

合作賽局與不合作賽局的差別,在於賽局的參與者之間,是否存在具有約束力的協議,而溝通便是賽局由不合作走向合作的關鍵因子。只要雙方開始有效的對談,通往合作雙贏的路途就會慢慢開啟。

當賽局理論合理化戰爭與不道德的「理性行為」,什麼才是真正的理性?

1950年代開始,賽局理論受到大眾懷疑與非難,原因是牽涉到參與者的價值體系:賽局表的每一格,代表每個決策組合所產生的「效用」,而這效用的大小因人而異,並不能以單一方式一概而論,你需要完全了解對手的思維,才能以此為依據決定自己的策略。

舉例來說,在二戰期間假設美國的思維是:若對手選擇繼續戰爭,那我肯定要繼續,因為兩敗俱傷比我單方毀滅好;若對手選擇停戰,我也選擇停戰,因為在我的價值觀裡世界和平比我和平然後毀了對手還要好。

假設日本亦為這樣的判斷思維,奈許均解就會有兩種,一為(戰爭,戰爭),二為(世界和平,世界和平)。繼續分析效用值之後,最後雙方的決策很可能導向(停戰,停戰)這個圓滿的結局:

但許多軍國主義國家(如日本),可能會偏好(自身和平,對方毀滅)勝過(世界和平,世界和平),因而大大影響賽局的均衡解:

假定侵略方抱著利己損人的心態,日本在美國選擇停戰時仍會選擇繼續打仗,那麼納許均解就會走向(戰爭,戰爭),於是,二戰是直到美國投下兩顆原子彈才徹底畫下句點。

(延伸閱讀:日本人為何不仇美?因為原子彈給了他們一個投降的理由

冷戰宣傳經常把敵人描繪成冷血自私的殺人機器,但這等於將自身置於囚犯困境中,讓擴充軍事成了唯一的選擇。在起初,美國製造原子彈是為了防止希特勒搶先研製成功,然而一旦開始發展核武,強國將會致力擴大軍備差距,次強的國家就會為了「縮小差距」而投入更多金錢於軍備,如此的惡行循環何時才能暫停?

真正的理性是從開始就以停戰為最大目標,可是當賽局中的參與者,對福利的理性評價與他人不同時,要達成協議會非常困難,最後更可能造成兩敗俱傷的局面。

Photo Credit: _Gavroche_ CC BY 2.0

Photo Credit: _Gavroche_ CC BY 2.0

囚犯的困境:賽局理論與數學天才馮紐曼的故事》這本書的結尾有一段話令我印象深刻:

「矛盾在於,我們對理性的概念並非固定。當某種『理性行為』失敗時,我們期望『真正理性』的人把事情重新思考一遍,提出新的行為。現實世界的兩難是基於對自己和他人的福利的主觀評價。如果世界還有希望,正因為感覺和評價是可以變化的。」

和平主義者愛因斯坦曾說過:「我不知道第三次世界大戰會是怎樣,但是第四次世界大戰時,人們手中的武器將是木棒和石塊!」

不論主觀評價的改變是基於對世界毀滅的恐懼或和平主義的提倡,冷戰結束至今近25年,世俗的價值觀是否有所改變,值得大眾繼續觀察。

這個社會充斥著許多囚犯困境,當個人利益可以毀滅集體利益時,經濟學所追求的理性反而會使社會沉淪。所以,社會機制存在的目的就是為了建立信任,創造合作的條件。在「合作賽局」的理論下,將會存在一種合理且具約束力的分配方式來分配合作帶來的利益,如此一來就能破解囚犯困境,創造合作雙贏的局面。

參考資料:

責任編輯:吳象元
核稿編輯:林佳賢


Tags: