大膽猜測AlphaGo為何會下錯棋

大膽猜測AlphaGo為何會下錯棋
Photo Credit: Lee Jin-man / AP Photo / 達志影像

我們想讓你知道的是

AlphaGo沒有逐點逐點追上對手的概念,因此這些變化都被視為無法提升勝率。在「All or nothing」的邏輯下, AlphaGo只會考慮那些「一旦成功就翻盤」的變化。

文︰Isaac Cheung(圍棋業餘2段

先此聲明︰本人非程式/電腦專業,以下只為個人猜測。

在形勢落後時有幾種棋可以選擇︰

  1. 正著/本手︰不急不緩的合理手,無法收窄雙方差距,但能夠在不進一步拉開差距的前提下等待對方主動出錯
  2. 無理手、攪局︰主動製造對方犯錯的機會,對方應對妥當的話差距會進一步擴大,但對方一旦犯錯就有機會翻盤
  3. 緩手︰容許對方進一步拉開差距的棋
  4. 壞著︰自行犯錯,進一步拉開差距

緩手及壞著因為不能提升勝率,所以都會在演算法中被排除。

即使對人類來說本手絕對是合理選擇,但AlphaGo仍然可能將其排除。假設AlphaGo下的正著稱為A,在一些情況下要對付A,對手的正確應法是眾數;假設對手下了一手錯誤應法B,AlphaGo再下一手C回應 ,這時對手仍然有很多選擇能夠挽救B的錯誤,將損失最小化。

所以在AlphaGo的搜索樹中,就會出現大量「對方損失了,但也並非損失了很多」的變化圖。AlphaGo沒有逐點逐點追上對手的概念(對它來說這需要搜索到終盤),因此這些變化都被視為無法提升勝率。在「All or nothing」的邏輯下, AlphaGo只會考慮那些「一旦成功就翻盤」的變化。

正著A所發展出的變化樹大概也有一些變化是對手連續犯錯而導致翻盤的,但這些變化的數量對比起基數十分之小,於是AlphaGo就可能判斷這種連續犯錯是比犯一次初學者級別錯誤的機率更小。

AlphaGo的策略算是「攪局無理手」,在目數差距為零的情況下, AlphaGo 會選90%機會獲利10目的棋,而不是0.1%機會獲利30目的棋。但在目數差距為25目時, AlphaGo就會寧願下注在0.1%翻盤的機會,因為那90%追回10目的機會對於它的演算法來說無法提高勝率。

但 AlphaGo 無法區別高端攪局和低端攪局。高端攪局如第三局李世石在白空強行弄出一個打不贏的劫,在AlphaGo看來可能是有太多妥善應對的變化,而且AlphaGo的MCTS(蒙地卡羅樹搜尋法)也有限,不會算到最後,對於李世石式攪局的選擇它可能會算到一半就用評價網絡(value network)來排除。所以AlphaGo就寧願選擇低端攪局,因為它能夠明確算出獲利的變化,這些利益也容易判斷。

AlphaGo喜歡能定型則先定型、能交換先交換的傾向大概也是來自同一個原因,因為它不能理解一些棋暫時不定型、不交換,在幾十手棋後可能有好處。MCTS不會把每個變化都算得這麼深,於是AlphaGo的評價網絡就無法正確判斷「保留交換」的價值(但人類能夠正確判斷,因為人類不需要確切地算出遙遠未來的全局具體變化來判斷局部一手棋的好壞)。

同樣道理,如果高端攪局成功的棋需要二、三十手以上, MCTS就很可能不會算到攪局成功的變化,而攪局成功前的變化全部都被評價網絡判斷為無助提升勝算,AlphaGo就會排除掉這種棋。

而以上都排除後,AlphaGo就有可能選擇那些「一旦對方犯初學者級別的錯誤,我就能翻盤」的臭棋,因為它判斷這種棋已經是最有機會提升勝率的手段。

本文獲授權轉載,原文見作者Facebook。

責任編輯:tnlhk
核稿編輯︰歐嘉俊


猜你喜歡


【影評】《沉默呼聲》:會不會有一天,再也沒有人站起來為我說話了

【影評】《沉默呼聲》:會不會有一天,再也沒有人站起來為我說話了
Photo Credit:漂流木制作

我們想讓你知道的是

「有時,沈默也是一種謊言」從導演李雲翔的角度來看,這些越不被關注的話題,越應該花時間去了解,從他執導紀錄片《活摘》、《求救信》到這部真人真事改編的《沉默呼聲》,都一再挑戰許多人不敢觸碰的敏感神經。

「自由就像空氣,你只會在窒息時,才會察覺到它的存在。」對於身處臺灣的我們,尤其是對1990年後出生的人來說,透過選舉投票、上街遊行、訴諸法律來維護個人權利,彷彿是理所當然的事情,但其實民主、自由、人權並非一蹴可幾,而是好幾個世代努力爭取來的甜美果實。由李雲翔執導的《沈默呼聲》,便是一部試圖讓觀眾重新省思自由與人權如何得來不易的電影。

由真人真事改編,甫於2021年獲得奧斯汀影展觀眾選擇獎的《沉默呼聲》劇情敘述1999年夏天,兩對清華大學的學生情侶因為信仰法輪功,讓他們原本無憂無慮的生活在一夕之間全變了調。謊言、栽贓、囚禁、凌遲,這些血淋淋的真實修羅場,無聲無息地染紅了中國的土地。由於這段恐怖的經歷,也讓他們與美國記者丹尼爾產生了交集,是為真相帶來一道曙光,或是一切都仍是未完待續?

雙重敘事線展開各自的掙扎與共鳴

《沉默呼聲》有兩條主要的敘事線,一條是男主角王博宇的學生線,另一條則是丹尼爾的記者線。王博宇是一名清華大學電子工程專業的博士研究生,他所信仰的法輪功被中國政府視為「眼中釘」,當掌權者開始迫害法輪功的學員,無法沉默的他藉由發傳單、拉布條、氣球飄書等機智手法,為自己的信仰與真相奮鬥,但這個看似再平凡不過的訴求,卻為他與身邊的人招來一連串的苦難,讓他感到心力交瘁。

31
Photo Credit:漂流木制作

另一部分,美國芝加哥郵報記者丹尼爾,過去曾經撰寫過六四天安門事件的相關報導而遭到中國驅逐。當他好不容易再度踏上中國土地時,又碰到了法輪功事件,讓他開始感到動搖,直到後來目睹男主角一行人試圖揭穿謊言的行動,加上事件越來越甚囂塵上,讓他重燃記者魂,決定為受害者發聲,將這些極力被掩蓋的真實公諸於世,兩條敘事線也終於產生交集和共鳴。

30-1
Photo Credit:漂流木制作

無聲是種無奈,亦是種被消音的選擇

不少人可能都有在路邊看過法輪功的學員在宣揚他們所信仰的理念,但若要進一步討論法輪功的理念時,有多少人能講出貼近事實的認知?根據統計,1999年時,中國有七千萬人習練法輪功,而這樣的「勢力」被視為威脅到中國政權的穩固,所以促使中國政府採取一連串的打壓、迫害與抹黑行動,「被消音」的情況導致許多人根本不知道其中的真偽,這也是《沉默呼聲》導演李雲翔為什麼拍攝這部片的原因之一。

導演李雲翔在接受採訪時提出了這樣的問題:「為什麼沒有更多的人來拍這些故事?」他認為現今的影視產業,為了不想要放棄中國市場,都會先自我審查電影題材,甚至主動迎合中國政府「批准」的故事內容。但從他的角度來看,這些越不能被關注的話題,越是應該花時間去了解,所以從執導紀錄片《活摘》、《求救信》到這部真人真事改編的劇情片《沉默呼聲》,都一再挑戰許多人不敢觸碰的敏感神經。

25
Photo Credit:漂流木制作

現實比電影更加風聲鶴唳

由於題材相當敏感,所以《沉默呼聲》劇組選擇在台灣跟加拿大兩地取景,即便拍攝場地不在中國,拍攝過程中還是面臨到不少困難,像在選角、租借場地時都遇到很多挑戰,更不用說要在台灣上院線時的阻礙連連。然而,正是這樣的困境,更讓我們看見這群新生代演員令人印象深刻的演技。尤其是當王博宇走過監獄長廊時那五味雜陳的神情,包含著對家人的思念、以及屹立不搖的堅持,光是這段畫面就值得再看一回。

44
Photo Credit:漂流木制作

「再也沒有人站起來為我說話了」

德國牧師馬丁尼莫拉曾經寫過這樣的詩文:「起初,納粹抓共產黨人的時候,我沉默,因為我不是共產黨人……當他們抓猶太人的時候,我沉默,因為我不是猶太人。最後當他們來抓我時,再也沒有人站起來為我說話了。」身處在自由社會的我們,當然可以繼續做沉默的大眾,選擇忽視旁人的不公不義,但誰又能保證眼前的歲月靜好,不會一夜翻盤?或許歷史紀錄是生冷的,但電影藝術是溫熱的,請一起走進戲院感受《沉默呼聲》帶來的省思及啟發吧!

《沉默呼聲》
上映日期:2022.8.12
上映地點:全台戲院同步上映
購票資訊詳見官方網站


猜你喜歡