AlphaGo團隊:對比李世乭的AlphaGo Lee,Master升了3子 但並不比深藍聰明

AlphaGo團隊:對比李世乭的AlphaGo Lee,Master升了3子 但並不比深藍聰明
photo credit: REUTERS/Stringer/達志影像
我們想讓你知道的是

DeepMind的首席設計師:其實AlphaGo並不是比深藍更聰明,只是減少了搜索範圍。

棋王柯潔跟升級版AlphaGo對決首仗敗北後慨嘆對手有如圍棋上帝,AlphaGo的科研團隊今天在烏鎮研討會上介紹了現在的AlphaGo Master是什麼一回事——相比去年3月跟韓國李世乭對決的AlphaGo Lee升了3子。

新浪報道,團隊用圖像說明對AlphaGo不斷演變的評估,指出當其他圍棋人工智能(AI)如Zen或Crazy Stone的等級分是相當於近2000時,2015年10月與樊麾一決高下的AlphaGo Fan就相當於接近3000等級分。去到李世乭時,是提升到3500以上等級分,而目前的AlphaGo Master則達4500以上等級分。回頭看世界排名第一的柯潔是3620等級分,排名第二的韓國朴廷桓是3593。

672aef25ly1ffw8hn32oyj218g0xcdlz
photo credit: 新浪,棋牌新聞微博截圖。

不過。DeepMind的首席設計師大衛席爾瓦表示,其實AlphaGo並不是比深藍更聰明(DeepBlue是由IBM開發的AI,1997年打敗西洋棋世界冠軍卡斯巴羅夫),只是減少了搜索範圍。他說,AlphaGo使用的卷積神經網路(Convolutional Neural Network,是深度學習技術中具代表性的網絡結構),原版有12層,Master則有40層。AlphaGo Master版本之所以更強大,是提升了策略網絡(Policy Network,計算可能的落子位置)和價值網絡(Value Network,評估每一步的勝率有多少),在寬度和深度都簡化了搜索。

如果用窮舉法(exhaustive search),涉及的範圍太大,透過策略網絡和價值網絡,可以聚焦幾個可能性,再降低搜索的深度。這個過程會重複千百次,以算出哪一步棋的勝率最高。對李世乭的AlphaGo Lee在Google cloud上的運作是50 TPUs,而AlphaGo Master則是單個TPU的運作。AlphaGo先通過人類棋譜進行監督學習,再而是自我對局千百萬次,成為自己的老師,從自己的搜索找出最好的數據。在過程中,目標是要找到最完美的棋局,在3000年的對弈中都不足以找到最佳棋局。AlphaGo就是要幫助人類去探求。

DeepMind創辦人哈薩比斯說,正如卡斯巴羅夫曾說過,深藍已結束,但AlphaGo才剛開始,他希望打造完美的AlphaGo,又說AlphaGo有點像一代棋聖吳清源在三四十年代為圍棋開創了新時代。Google母公司Alphabet董事長埃里克·施密特表示,賽前料不到AlphaGo同柯潔比賽會表現如何,如果是差距非常小,可見柯潔是做足準備而來。估計柯潔也借鑑了AlphaGo之前對李世乭的套路。一如李世乭當年也盡力試圖打敗AlphaGo,他是非常期待明天第二局比賽(早上10:30)。