跳至主要内容

「神之一手」深度分析

2016 年 3 月 10 日,AlphaGo 與李世乭的第二盤對局。第 37 手,AlphaGo 在右上方五路下出一步「肩衝」。

這一手棋,後來被稱為「神之一手」(Divine Move)。它不只讓 AlphaGo 贏得比賽,更改變了人類對圍棋的理解。

本文將從多個角度深度分析這步棋:對局背景、傳統棋理、專家反應、AI 視角,以及它對圍棋理論的長遠影響。


對局局面回顧

第二盤的開局

第一盤失利後,李世乭在第二盤做出調整。他選擇執白後手,希望觀察 AlphaGo 的開局傾向後再制定策略。

開局階段:

  • 黑 1:右上角星位
  • 白 2:左下角星位
  • 黑 3-白 4:雙方各佔一角

到第 36 手為止,局面發展正常。AlphaGo 執黑,在右上角進行了一場局部戰鬥。白棋(李世乭)在右邊建立了勢力,黑棋則在上邊有一定實地。

第 36 手後的局面

讓我們看看第 36 手後的棋盤狀態:

     A B C D E F G H J K L M N O P Q R S T
19 . . . . . . . . . . . . . . . . . . .
18 . . . . . . . . . . . . . . . . . . .
17 . . . ○ . . . . . . . . . . . ● . . .
16 . . . ╋ . . . . . ╋ . . . . . ╋ . . .
15 . . . . . . . . . . . . . . . ● . . .
14 . . . . . . . . . . . . . . ○ . . . . ← 白棋勢力範圍
13 . . . . . . . . . . . . . . . . . . .
12 . . . . . . . . . . . . . . . . . . .
11 . . . . . . . . . . . . . . . . . . .
10 . . . ╋ . . . . . ╋ . . . . . ╋ . . .
9 . . . . . . . . . . . . . . . . . . .
8 . . . . . . . . . . . . . . . . . . .
7 . . . . . . . . . . . . . . . . . . .
6 . . . . . . . . . . . . . . . . . . .
5 . . . . . . . . . . . . . . . . . . .
4 . . . ╋ . . . . . ╋ . . . . . ╋ . . .
3 . . . ○ . . . . . . . . . . . ● . . .
2 . . . . . . . . . . . . . . . . . . .
1 . . . . . . . . . . . . . . . . . . .

(簡化示意圖,實際局面更複雜)

關鍵觀察:

  • 白棋在右邊有外勢
  • 黑棋在上邊有實地潛力
  • 右上角的戰鬥告一段落

此時,輪到黑棋(AlphaGo)落子。


傳統下法分析

職業棋手的預期

在第 37 手之前,解說室裡的職業棋手正在熱烈討論。他們普遍預期黑棋會選擇以下幾種下法:

選項 A:右下角掛角

這是最「正常」的選擇。黑棋可以:

  • 搶佔最後的大場(右下角)
  • 保持局面平衡
  • 遵循「金角銀邊草肚皮」的傳統價值觀

選項 B:上邊圍空

黑棋也可以在上邊拆二或拆三,鞏固自己的勢力範圍。這樣可以:

  • 將上邊的潛力轉化為實地
  • 限制白棋的發展空間

選項 C:中央分投

一些棋手認為黑棋可能會在中央下一手,制約白棋的右邊外勢。這雖然不是最常見的選擇,但在戰略上也說得通。

🎬 C3:傳統棋理的價值判斷

沒有人預料到的選擇

然而,AlphaGo 選擇了一個幾乎沒有人想到的位置:

E5(五路肩衝)

這一手落在了棋盤右半部、靠近中央的位置,是對白棋右邊外勢的一步「肩衝」。


第 37 手:五路肩衝

這步棋在哪裡?

     A B C D E F G H J K L M N O P Q R S T
19 . . . . . . . . . . . . . . . . . . .
18 . . . . . . . . . . . . . . . . . . .
17 . . . ○ . . . . . . . . . . . ● . . .
16 . . . ╋ . . . . . ╋ . . . . . ╋ . . .
15 . . . . . . . . . ★ . . . . . ● . . . ← 第 37 手(★)
14 . . . . . . . . . . . . . . ○ . . . .
13 . . . . . . . . . . . . . . . . . . .
12 . . . . . . . . . . . . . . . . . . .

第 37 手下在了 K15(或稱 J5,座標系統因來源而異)位置。

什麼是「肩衝」?

「肩衝」是圍棋中的一個手筋,指的是斜向靠近對方棋子的下法。它的特點是:

  • 不直接接觸:與對方棋子保持一步距離
  • 破壞結構:打亂對方的預期發展
  • 難以應對:不管對方如何應對,都會產生某種代價

傳統上,肩衝通常下在三路或四路。五路肩衝極為罕見,因為:

  1. 位置太高:五路靠近中央,傳統認為效率較低
  2. 容易被攻擊:孤立的棋子容易成為對方攻擊目標
  3. 價值不明確:不像邊角那樣有明確的實地價值

🎬 C5:肩衝的幾何特性


專家即時反應

解說室的震驚

第 37 手落下的瞬間,解說室陷入了短暫的沉默。

韓國解說(金成龍九段)

「這...這是什麼?這步棋下在五路?我不理解。這一定是失誤吧?」

中國解說(古力九段)

「我看不懂這步棋。如果是我的學生這樣下,我會狠狠批評他。」

美國解說(Michael Redmond 九段)

「Very unusual move. I don't think any human would play this.」

(非常不尋常的一手。我不認為有人類會這樣下。)

職業棋手的實時評論

在各種直播平台上,職業棋手紛紛發表評論:

柯潔(當時世界排名第一):

「我無法理解這步棋的意圖。如果 AlphaGo 贏了,我會認真研究。」

朴廷桓(韓國頂尖棋手):

「這步棋太奇怪了。是不是程式出了問題?」

芈昱廷(中國世界冠軍):

「五路肩衝?從來沒見過這種下法。」

🎬 C7:專家直覺與 AI 評估的差距

「萬分之一的機率」

賽後,DeepMind 團隊透露了一個驚人的數據:

「根據我們的分析,如果一位職業棋手面對同樣的局面,選擇第 37 手這個位置的機率大約是 萬分之一。」

換句話說,在人類的圍棋知識體系中,這步棋幾乎是「不存在」的選項。


AI 視角的解讀

Policy Network 的機率分布

讓我們看看 AlphaGo 的 Policy Network 如何評估這個局面:

載入中...

上圖展示了 AlphaGo 對各個位置的落子機率評估。

關鍵觀察:

  • 第 37 手的位置:機率約 8%,並非最高
  • 傳統選點(如右下角):機率約 12%
  • 其他候選位置:分散在不同區域

有趣的是,第 37 手在 Policy Network 的評估中並非機率最高的選擇。那為什麼 AlphaGo 選擇了它?

🎬 C9:Policy Network 的輸出分布

MCTS 的深度評估

答案在於 蒙地卡羅樹搜索(MCTS)

Policy Network 只提供「直覺」,真正的決策來自 MCTS 的深度模擬。AlphaGo 在做出決定前,會模擬數千種可能的未來走向。

對於第 37 手,MCTS 的評估過程如下:

位置 K15(第 37 手):
├── 模擬 1: 黑勝(+0.3)
├── 模擬 2: 黑勝(+0.5)
├── 模擬 3: 黑勝(+0.2)
├── ...
└── 平均勝率: 58%

位置 R3(右下角掛角):
├── 模擬 1: 黑勝(+0.1)
├── 模擬 2: 白勝(-0.2)
├── 模擬 3: 黑勝(+0.2)
├── ...
└── 平均勝率: 52%

雖然右下角的「直覺機率」更高,但經過深度模擬後,第 37 手的預期勝率更高

🎬 C11:MCTS 如何修正 Policy Network 的判斷

Value Network 的全局評估

Value Network 從全局角度評估了第 37 手的價值:

下第 37 手前的勝率:約 52%(黑棋略優)

下第 37 手後的勝率:約 58%(黑棋明顯優勢)

這意味著,第 37 手讓 AlphaGo 的預期勝率提升了 6 個百分點

這個提升幅度在圍棋中是相當顯著的。通常,一步好棋能帶來 2-3% 的勝率提升就已經很好了。

🎬 C13:Value Network 的增量評估


棋理分析:為什麼是五路肩衝?

從局部看

表面上,第 37 手似乎效率很低:

  • 位置太高:五路比四路或三路更靠近中央
  • 沒有實地:不像邊角那樣能直接圍取實地
  • 容易被攻擊:孤立的棋子可能被白棋攻擊

但如果我們仔細分析,這步棋有幾個微妙的好處:

  1. 破壞白棋的外勢:白棋原本計劃在右邊發展,第 37 手打亂了這個計劃
  2. 建立自己的影響力:這步棋雖然不圍實地,但在中央建立了存在感
  3. 增加變化:創造了複雜的局面,有利於計算能力更強的一方

從全局看

這步棋的真正價值需要從全局角度來理解:

厚勢與實地的權衡

傳統圍棋理論認為「金角銀邊草肚皮」——角最有價值,中央最沒價值。但第 37 手挑戰了這個觀念。

AlphaGo 的評估顯示:在這個特定局面下,中央的影響力比邊角的實地更有價值

這是因為:

  • 黑棋已經有足夠的實地基礎
  • 白棋的右邊外勢如果發展起來會很強大
  • 制約白棋比擴張自己更重要

🎬 C15:全局價值函數的計算

「先手」的價值

第 37 手還有一個被低估的好處:它保持了「先手」。

在圍棋中,「先手」意味著掌握主動權。第 37 手下完後,白棋不得不應對,這讓黑棋可以繼續主導局面走向。

如果黑棋選擇「正常」的右下角掛角,雙方可能會在角部進行定式,然後局面趨於平衡。但第 37 手打破了這種平衡,讓局面充滿不確定性——而這正是 AlphaGo 所擅長的。

李世乭的應對困境

第 37 手之後,李世乭思考了很長時間。他面臨的困境是:

如果直接應對(例如跳或飛)

  • 等於承認第 37 手的價值
  • 讓黑棋達到了破壞白棋外勢的目的

如果不理會

  • 黑棋可能會進一步發展中央
  • 白棋的右邊外勢難以成為實地

最終,李世乭選擇了應對。但無論他選擇什麼,第 37 手已經達到了它的目的。

🎬 C17:博弈論中的強制選擇


後續發展:從第 37 手到勝利

中盤的演變

第 37 手之後,對局進入了複雜的中盤戰鬥。

關鍵進展

  • 手數 40-50:雙方在右邊進行了激烈的接觸戰
  • 手數 50-70:AlphaGo 利用第 37 手建立的影響力,在中央取得優勢
  • 手數 70-100:黑棋逐漸將優勢轉化為實地

到了第 100 手左右,AlphaGo 的領先已經相當明顯。李世乭雖然努力反擊,但無法扭轉局勢。

最終結果

AlphaGo 中盤勝

這盤棋的勝利,第 37 手居功至偉。賽後分析顯示,如果沒有第 37 手,局面會更加接近,白棋甚至可能取得優勢。

🎬 C19:一步棋如何改變整盤棋的走向


對圍棋理論的影響

新定式的誕生

第 37 手引發了圍棋界對「肩衝」這個手筋的重新思考。

傳統觀點

  • 肩衝應該下在三路或四路
  • 五路肩衝效率太低
  • 孤立的棋子容易被攻擊

AlphaGo 之後

  • 五路肩衝在特定局面下是最佳選擇
  • 位置的「高低」不如「效果」重要
  • 需要從全局角度評估每一步棋的價值

人類棋手的學習

第 37 手之後,許多職業棋手開始嘗試類似的下法:

柯潔在 2017 年的幾盤對局中使用了五路肩衝,並取得成功:

「AlphaGo 教會我,很多我們認為『不好』的棋,其實只是我們不理解。」

朴廷桓也在自己的對局中借鑒了這種思維方式:

「重要的不是記住第 37 手這個具體的位置,而是學會用新的眼光看待棋盤。」

🎬 C21:AI 如何拓展人類的認知邊界

圍棋 AI 訓練的啟示

第 37 手對圍棋 AI 的研究也有深遠影響:

對 Policy Network 的反思

為什麼 Policy Network 給第 37 手的機率較低?因為它是從人類棋譜中學習的,而人類幾乎不會下這種棋。

這說明:僅靠監督學習(從人類學習)是不夠的。AI 需要自我探索,才能發現人類未知的好棋。

這也是後來 AlphaGo Zero 採用純自我對弈訓練的原因之一。

對 MCTS 的肯定

第 37 手證明了 MCTS 深度搜索的價值。即使直覺(Policy Network)不看好一步棋,深度分析也能發現它的潛在價值。

這個洞見後來被應用到許多其他領域。


技術細節:重現第 37 手的決策過程

Policy Network 的輸入特徵

在第 36 手後,Policy Network 的輸入包括:

特徵平面描述
1-8黑棋位置(過去 8 步)
9-16白棋位置(過去 8 步)
17當前該誰下
18-48其他特徵(氣數、叫吃等)

總計 48 個 19x19 的特徵平面,構成輸入張量。

🎬 C23:特徵工程在 AI 圍棋中的重要性

Policy Network 的輸出

Policy Network 輸出一個 19x19 = 361 維的機率分布。

對於第 37 手的局面:

# 前 5 名候選位置(簡化示意)
{
"R3": 0.12, # 右下角掛角
"Q17": 0.10, # 右上角
"C10": 0.09, # 左邊大場
"K15": 0.08, # 第 37 手的位置
"D16": 0.07, # 左上角
# ... 其他 356 個位置
}

MCTS 的探索過程

AlphaGo 使用 PUCT 公式來平衡探索與利用:

U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))

其中:

  • Q(s,a):位置 a 的平均價值
  • P(s,a):Policy Network 給出的機率
  • N(s,a):該位置被探索的次數
  • c_puct:探索常數

對於第 37 手,雖然初始機率 P 較低,但經過多次模擬後,Q 值不斷提高,最終超過了其他候選位置。

🎬 C25:PUCT 公式如何發現非直覺的好棋

模擬次數的影響

DeepMind 團隊後來分析,第 37 手的「發現」需要足夠的模擬次數:

模擬次數最佳選擇
100R3(右下角)
1,000Q17(右上角)
10,000K15(第 37 手)
100,000K15(更確定)

這說明:深度搜索能夠發現淺層搜索無法找到的好棋


哲學思考:人類與 AI 的認知差異

為什麼人類想不到第 37 手?

這是一個深刻的問題。可能的原因包括:

1. 經驗的侷限

人類棋手的知識來自學習前人的棋譜。如果前人從來沒有下過某種棋,我們就不會去考慮它。

2. 直覺的偏見

人類的直覺是有用的,但也是有侷限的。我們的直覺會讓我們「看不見」某些選項。

3. 計算能力的差異

第 37 手的價值需要經過深度計算才能發現。人類的計算能力有限,無法像 AI 那樣模擬數千種可能。

🎬 C27:認知偏見與 AI 的超越

機器的「直覺」是什麼?

AlphaGo 有「直覺」嗎?

從某種意義上說,Policy Network 就是 AlphaGo 的「直覺」——它可以在毫秒內評估每個位置的潛力。

但這種「直覺」與人類的直覺不同:

  • 人類的直覺:來自經驗和模式識別
  • AI 的直覺:來自大量數據的統計學習

有趣的是,第 37 手證明了:AI 的「直覺」可以被 MCTS 修正。這意味著 AI 能夠「反思」自己的直覺,找到更好的選擇。

人類能從 AI 學到什麼?

第 37 手給人類棋手的最大啟示可能是:

不要讓經驗成為枷鎖

很多「不好」的棋,可能只是我們不理解。打開心態,願意嘗試非傳統的下法,可能會發現新的可能性。

這個啟示不只適用於圍棋,也適用於人生的許多領域。


動畫對應

本文涉及的核心概念與動畫編號:

編號概念物理/數學對應
🎬 C3傳統棋理的價值判斷啟發式函數
🎬 C5肩衝的幾何特性空間關係
🎬 C7專家直覺與 AI 評估的差距預測誤差
🎬 C9Policy Network 的輸出分布Softmax 機率
🎬 C11MCTS 如何修正 Policy Network貝氏更新
🎬 C13Value Network 的增量評估價值函數
🎬 C15全局價值函數的計算積分近似
🎬 C17博弈論中的強制選擇優勢策略
🎬 C19一步棋改變整盤棋的走向分岔點
🎬 C21AI 如何拓展人類的認知邊界搜索空間擴展
🎬 C23特徵工程在 AI 圍棋中的重要性表示學習
🎬 C25PUCT 公式如何發現非直覺的好棋探索-利用權衡
🎬 C27認知偏見與 AI 的超越無偏估計

延伸閱讀


互動探索

Policy Network 機率分布

使用下方的互動視覺化,探索不同局面下 Policy Network 的輸出:

載入中...

嘗試切換不同的預設局面,觀察 AI 如何評估各個位置的落子機率。


參考資料

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. DeepMind Blog: "AlphaGo: The story so far"
  3. 《AlphaGo》紀錄片 (2017),導演 Greg Kohs。
  4. 李世乭 vs AlphaGo 第二盤官方棋譜
  5. Go4Go.net 專業棋譜分析
  6. 韓國棋院賽後技術報告

📌 重點摘要

本文重點:

  • 第 37 手「五路肩衝」是人類棋手幾乎不會考慮的位置(萬分之一機率),卻被 MCTS 深度搜索證明是最佳選擇
  • Policy Network 給第 37 手的機率較低,但 MCTS 通過數千次模擬發現它的長期價值更高,體現了「直覺 + 推理」的結合
  • 這步棋改變了圍棋理論,讓人類棋手認識到經驗可能成為認知的限制

常見問題

為什麼職業棋手一開始認為第 37 手是失誤?

傳統圍棋理論認為五路太高、效率低、容易被攻擊。人類的經驗和直覺讓他們「看不見」這個選項。但 AlphaGo 通過深度搜索發現,在這個特定局面下,破壞白棋外勢比佔實地更有價值。

MCTS 如何發現 Policy Network 忽略的好棋?

MCTS 使用 PUCT 公式平衡探索與利用。即使 Policy Network 給某位置的初始機率較低,只要深度模擬顯示它的預期勝率高,MCTS 就會逐漸增加對該位置的探索,最終可能選擇它。

第 37 手對圍棋理論有什麼長遠影響?

這步棋讓圍棋界重新思考「厚勢」的價值和「位置高低」的判斷標準。很多職業棋手開始使用 AI 訓練,學習突破傳統定式的新下法。