「神之一手」深度分析

2016 年 3 月 10 日，AlphaGo 與李世乭的第二盤對局。第 37 手，AlphaGo 在右上方五路下出一步「肩衝」。

這一手棋，後來被稱為「神之一手」（Divine Move）。它不只讓 AlphaGo 贏得比賽，更改變了人類對圍棋的理解。

本文將從多個角度深度分析這步棋：對局背景、傳統棋理、專家反應、AI 視角，以及它對圍棋理論的長遠影響。

對局局面回顧

第二盤的開局

第一盤失利後，李世乭在第二盤做出調整。他選擇執白後手，希望觀察 AlphaGo 的開局傾向後再制定策略。

開局階段：

黑 1：右上角星位
白 2：左下角星位
黑 3-白 4：雙方各佔一角

到第 36 手為止，局面發展正常。AlphaGo 執黑，在右上角進行了一場局部戰鬥。白棋（李世乭）在右邊建立了勢力，黑棋則在上邊有一定實地。

第 36 手後的局面

讓我們看看第 36 手後的棋盤狀態：

     A B C D E F G H J K L M N O P Q R S T
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . ○ . . . . . . . . . . . ● . . .
. . . ╋ . . . . . ╋ . . . . . ╋ . . .
. . . . . . . . . . . . . . . ● . . .
. . . . . . . . . . . . . . ○ . . . .  ← 白棋勢力範圍
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . ╋ . . . . . ╋ . . . . . ╋ . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . ╋ . . . . . ╋ . . . . . ╋ . . .
. . . ○ . . . . . . . . . . . ● . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .

（簡化示意圖，實際局面更複雜）

關鍵觀察：

白棋在右邊有外勢
黑棋在上邊有實地潛力
右上角的戰鬥告一段落

此時，輪到黑棋（AlphaGo）落子。

傳統下法分析

職業棋手的預期

在第 37 手之前，解說室裡的職業棋手正在熱烈討論。他們普遍預期黑棋會選擇以下幾種下法：

選項 A：右下角掛角

這是最「正常」的選擇。黑棋可以：

搶佔最後的大場（右下角）
保持局面平衡
遵循「金角銀邊草肚皮」的傳統價值觀

選項 B：上邊圍空

黑棋也可以在上邊拆二或拆三，鞏固自己的勢力範圍。這樣可以：

將上邊的潛力轉化為實地
限制白棋的發展空間

選項 C：中央分投

一些棋手認為黑棋可能會在中央下一手，制約白棋的右邊外勢。這雖然不是最常見的選擇，但在戰略上也說得通。

🎬 C3：傳統棋理的價值判斷

沒有人預料到的選擇

然而，AlphaGo 選擇了一個幾乎沒有人想到的位置：

E5（五路肩衝）

這一手落在了棋盤右半部、靠近中央的位置，是對白棋右邊外勢的一步「肩衝」。

第 37 手：五路肩衝

這步棋在哪裡？

     A B C D E F G H J K L M N O P Q R S T
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . ○ . . . . . . . . . . . ● . . .
. . . ╋ . . . . . ╋ . . . . . ╋ . . .
. . . . . . . . . ★ . . . . . ● . . .  ← 第 37 手（★）
. . . . . . . . . . . . . . ○ . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .

第 37 手下在了 K15（或稱 J5，座標系統因來源而異）位置。

什麼是「肩衝」？

「肩衝」是圍棋中的一個手筋，指的是斜向靠近對方棋子的下法。它的特點是：

不直接接觸：與對方棋子保持一步距離
破壞結構：打亂對方的預期發展
難以應對：不管對方如何應對，都會產生某種代價

傳統上，肩衝通常下在三路或四路。五路肩衝極為罕見，因為：

位置太高：五路靠近中央，傳統認為效率較低
容易被攻擊：孤立的棋子容易成為對方攻擊目標
價值不明確：不像邊角那樣有明確的實地價值

🎬 C5：肩衝的幾何特性

專家即時反應

解說室的震驚

第 37 手落下的瞬間，解說室陷入了短暫的沉默。

韓國解說（金成龍九段）：

「這...這是什麼？這步棋下在五路？我不理解。這一定是失誤吧？」

中國解說（古力九段）：

「我看不懂這步棋。如果是我的學生這樣下，我會狠狠批評他。」

美國解說（Michael Redmond 九段）：

「Very unusual move. I don't think any human would play this.」

（非常不尋常的一手。我不認為有人類會這樣下。）

職業棋手的實時評論

在各種直播平台上，職業棋手紛紛發表評論：

柯潔（當時世界排名第一）：

「我無法理解這步棋的意圖。如果 AlphaGo 贏了，我會認真研究。」

朴廷桓（韓國頂尖棋手）：

「這步棋太奇怪了。是不是程式出了問題？」

芈昱廷（中國世界冠軍）：

「五路肩衝？從來沒見過這種下法。」

🎬 C7：專家直覺與 AI 評估的差距

「萬分之一的機率」

賽後，DeepMind 團隊透露了一個驚人的數據：

「根據我們的分析，如果一位職業棋手面對同樣的局面，選擇第 37 手這個位置的機率大約是 萬分之一。」

換句話說，在人類的圍棋知識體系中，這步棋幾乎是「不存在」的選項。

AI 視角的解讀

Policy Network 的機率分布

讓我們看看 AlphaGo 的 Policy Network 如何評估這個局面：

載入中...

上圖展示了 AlphaGo 對各個位置的落子機率評估。

關鍵觀察：

第 37 手的位置：機率約 8%，並非最高
傳統選點（如右下角）：機率約 12%
其他候選位置：分散在不同區域

有趣的是，第 37 手在 Policy Network 的評估中並非機率最高的選擇。那為什麼 AlphaGo 選擇了它？

🎬 C9：Policy Network 的輸出分布

MCTS 的深度評估

答案在於 蒙地卡羅樹搜索（MCTS）。

Policy Network 只提供「直覺」，真正的決策來自 MCTS 的深度模擬。AlphaGo 在做出決定前，會模擬數千種可能的未來走向。

對於第 37 手，MCTS 的評估過程如下：

位置 K15（第 37 手）:
├── 模擬 1: 黑勝（+0.3）
├── 模擬 2: 黑勝（+0.5）
├── 模擬 3: 黑勝（+0.2）
├── ...
└── 平均勝率: 58%

位置 R3（右下角掛角）:
├── 模擬 1: 黑勝（+0.1）
├── 模擬 2: 白勝（-0.2）
├── 模擬 3: 黑勝（+0.2）
├── ...
└── 平均勝率: 52%

雖然右下角的「直覺機率」更高，但經過深度模擬後，第 37 手的預期勝率更高。

🎬 C11：MCTS 如何修正 Policy Network 的判斷

Value Network 的全局評估

Value Network 從全局角度評估了第 37 手的價值：

下第 37 手前的勝率：約 52%（黑棋略優）

下第 37 手後的勝率：約 58%（黑棋明顯優勢）

這意味著，第 37 手讓 AlphaGo 的預期勝率提升了 6 個百分點。

這個提升幅度在圍棋中是相當顯著的。通常，一步好棋能帶來 2-3% 的勝率提升就已經很好了。

🎬 C13：Value Network 的增量評估

棋理分析：為什麼是五路肩衝？

從局部看

表面上，第 37 手似乎效率很低：

位置太高：五路比四路或三路更靠近中央
沒有實地：不像邊角那樣能直接圍取實地
容易被攻擊：孤立的棋子可能被白棋攻擊

但如果我們仔細分析，這步棋有幾個微妙的好處：

破壞白棋的外勢：白棋原本計劃在右邊發展，第 37 手打亂了這個計劃
建立自己的影響力：這步棋雖然不圍實地，但在中央建立了存在感
增加變化：創造了複雜的局面，有利於計算能力更強的一方

從全局看

這步棋的真正價值需要從全局角度來理解：

厚勢與實地的權衡

傳統圍棋理論認為「金角銀邊草肚皮」——角最有價值，中央最沒價值。但第 37 手挑戰了這個觀念。

AlphaGo 的評估顯示：在這個特定局面下，中央的影響力比邊角的實地更有價值。

這是因為：

黑棋已經有足夠的實地基礎
白棋的右邊外勢如果發展起來會很強大
制約白棋比擴張自己更重要

🎬 C15：全局價值函數的計算

「先手」的價值

第 37 手還有一個被低估的好處：它保持了「先手」。

在圍棋中，「先手」意味著掌握主動權。第 37 手下完後，白棋不得不應對，這讓黑棋可以繼續主導局面走向。

如果黑棋選擇「正常」的右下角掛角，雙方可能會在角部進行定式，然後局面趨於平衡。但第 37 手打破了這種平衡，讓局面充滿不確定性——而這正是 AlphaGo 所擅長的。

李世乭的應對困境

第 37 手之後，李世乭思考了很長時間。他面臨的困境是：

如果直接應對（例如跳或飛）：

等於承認第 37 手的價值
讓黑棋達到了破壞白棋外勢的目的

如果不理會：

黑棋可能會進一步發展中央
白棋的右邊外勢難以成為實地

最終，李世乭選擇了應對。但無論他選擇什麼，第 37 手已經達到了它的目的。

🎬 C17：博弈論中的強制選擇

後續發展：從第 37 手到勝利

中盤的演變

第 37 手之後，對局進入了複雜的中盤戰鬥。

關鍵進展：

手數 40-50：雙方在右邊進行了激烈的接觸戰
手數 50-70：AlphaGo 利用第 37 手建立的影響力，在中央取得優勢
手數 70-100：黑棋逐漸將優勢轉化為實地

到了第 100 手左右，AlphaGo 的領先已經相當明顯。李世乭雖然努力反擊，但無法扭轉局勢。

最終結果

AlphaGo 中盤勝

這盤棋的勝利，第 37 手居功至偉。賽後分析顯示，如果沒有第 37 手，局面會更加接近，白棋甚至可能取得優勢。

🎬 C19：一步棋如何改變整盤棋的走向

對圍棋理論的影響

新定式的誕生

第 37 手引發了圍棋界對「肩衝」這個手筋的重新思考。

傳統觀點：

肩衝應該下在三路或四路
五路肩衝效率太低
孤立的棋子容易被攻擊

AlphaGo 之後：

五路肩衝在特定局面下是最佳選擇
位置的「高低」不如「效果」重要
需要從全局角度評估每一步棋的價值

人類棋手的學習

第 37 手之後，許多職業棋手開始嘗試類似的下法：

柯潔在 2017 年的幾盤對局中使用了五路肩衝，並取得成功：

「AlphaGo 教會我，很多我們認為『不好』的棋，其實只是我們不理解。」

朴廷桓也在自己的對局中借鑒了這種思維方式：

「重要的不是記住第 37 手這個具體的位置，而是學會用新的眼光看待棋盤。」

🎬 C21：AI 如何拓展人類的認知邊界

圍棋 AI 訓練的啟示

第 37 手對圍棋 AI 的研究也有深遠影響：

對 Policy Network 的反思：

為什麼 Policy Network 給第 37 手的機率較低？因為它是從人類棋譜中學習的，而人類幾乎不會下這種棋。

這說明：僅靠監督學習（從人類學習）是不夠的。AI 需要自我探索，才能發現人類未知的好棋。

這也是後來 AlphaGo Zero 採用純自我對弈訓練的原因之一。

對 MCTS 的肯定：

第 37 手證明了 MCTS 深度搜索的價值。即使直覺（Policy Network）不看好一步棋，深度分析也能發現它的潛在價值。

這個洞見後來被應用到許多其他領域。

技術細節：重現第 37 手的決策過程

Policy Network 的輸入特徵

在第 36 手後，Policy Network 的輸入包括：

特徵平面	描述
1-8	黑棋位置（過去 8 步）
9-16	白棋位置（過去 8 步）
17	當前該誰下
18-48	其他特徵（氣數、叫吃等）

總計 48 個 19x19 的特徵平面，構成輸入張量。

🎬 C23：特徵工程在 AI 圍棋中的重要性

Policy Network 的輸出

Policy Network 輸出一個 19x19 = 361 維的機率分布。

對於第 37 手的局面：

# 前 5 名候選位置（簡化示意）
{
    "R3": 0.12,   # 右下角掛角
    "Q17": 0.10,  # 右上角
    "C10": 0.09,  # 左邊大場
    "K15": 0.08,  # 第 37 手的位置
    "D16": 0.07,  # 左上角
    # ... 其他 356 個位置
}

MCTS 的探索過程

AlphaGo 使用 PUCT 公式來平衡探索與利用：

U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))

其中：

Q(s,a)：位置 a 的平均價值
P(s,a)：Policy Network 給出的機率
N(s,a)：該位置被探索的次數
c_puct：探索常數

對於第 37 手，雖然初始機率 P 較低，但經過多次模擬後，Q 值不斷提高，最終超過了其他候選位置。

🎬 C25：PUCT 公式如何發現非直覺的好棋

模擬次數的影響

DeepMind 團隊後來分析，第 37 手的「發現」需要足夠的模擬次數：

模擬次數	最佳選擇
100	R3（右下角）
1,000	Q17（右上角）
10,000	K15（第 37 手）
100,000	K15（更確定）

這說明：深度搜索能夠發現淺層搜索無法找到的好棋。

哲學思考：人類與 AI 的認知差異

為什麼人類想不到第 37 手？

這是一個深刻的問題。可能的原因包括：

1. 經驗的侷限

人類棋手的知識來自學習前人的棋譜。如果前人從來沒有下過某種棋，我們就不會去考慮它。

2. 直覺的偏見

人類的直覺是有用的，但也是有侷限的。我們的直覺會讓我們「看不見」某些選項。

3. 計算能力的差異

第 37 手的價值需要經過深度計算才能發現。人類的計算能力有限，無法像 AI 那樣模擬數千種可能。

🎬 C27：認知偏見與 AI 的超越

機器的「直覺」是什麼？

AlphaGo 有「直覺」嗎？

從某種意義上說，Policy Network 就是 AlphaGo 的「直覺」——它可以在毫秒內評估每個位置的潛力。

但這種「直覺」與人類的直覺不同：

人類的直覺：來自經驗和模式識別
AI 的直覺：來自大量數據的統計學習

有趣的是，第 37 手證明了：AI 的「直覺」可以被 MCTS 修正。這意味著 AI 能夠「反思」自己的直覺，找到更好的選擇。

人類能從 AI 學到什麼？

第 37 手給人類棋手的最大啟示可能是：

不要讓經驗成為枷鎖

很多「不好」的棋，可能只是我們不理解。打開心態，願意嘗試非傳統的下法，可能會發現新的可能性。

這個啟示不只適用於圍棋，也適用於人生的許多領域。

動畫對應

本文涉及的核心概念與動畫編號：

編號	概念	物理/數學對應
🎬 C3	傳統棋理的價值判斷	啟發式函數
🎬 C5	肩衝的幾何特性	空間關係
🎬 C7	專家直覺與 AI 評估的差距	預測誤差
🎬 C9	Policy Network 的輸出分布	Softmax 機率
🎬 C11	MCTS 如何修正 Policy Network	貝氏更新
🎬 C13	Value Network 的增量評估	價值函數
🎬 C15	全局價值函數的計算	積分近似
🎬 C17	博弈論中的強制選擇	優勢策略
🎬 C19	一步棋改變整盤棋的走向	分岔點
🎬 C21	AI 如何拓展人類的認知邊界	搜索空間擴展
🎬 C23	特徵工程在 AI 圍棋中的重要性	表示學習
🎬 C25	PUCT 公式如何發現非直覺的好棋	探索-利用權衡
🎬 C27	認知偏見與 AI 的超越	無偏估計

互動探索

Policy Network 機率分布

使用下方的互動視覺化，探索不同局面下 Policy Network 的輸出：

載入中...

嘗試切換不同的預設局面，觀察 AI 如何評估各個位置的落子機率。

參考資料

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
DeepMind Blog: "AlphaGo: The story so far"
《AlphaGo》紀錄片 (2017)，導演 Greg Kohs。
李世乭 vs AlphaGo 第二盤官方棋譜
Go4Go.net 專業棋譜分析
韓國棋院賽後技術報告

📌 重點摘要

本文重點：

第 37 手「五路肩衝」是人類棋手幾乎不會考慮的位置（萬分之一機率），卻被 MCTS 深度搜索證明是最佳選擇
Policy Network 給第 37 手的機率較低，但 MCTS 通過數千次模擬發現它的長期價值更高，體現了「直覺 + 推理」的結合
這步棋改變了圍棋理論，讓人類棋手認識到經驗可能成為認知的限制

常見問題

為什麼職業棋手一開始認為第 37 手是失誤？

傳統圍棋理論認為五路太高、效率低、容易被攻擊。人類的經驗和直覺讓他們「看不見」這個選項。但 AlphaGo 通過深度搜索發現，在這個特定局面下，破壞白棋外勢比佔實地更有價值。

MCTS 如何發現 Policy Network 忽略的好棋？

MCTS 使用 PUCT 公式平衡探索與利用。即使 Policy Network 給某位置的初始機率較低，只要深度模擬顯示它的預期勝率高，MCTS 就會逐漸增加對該位置的探索，最終可能選擇它。

第 37 手對圍棋理論有什麼長遠影響？

這步棋讓圍棋界重新思考「厚勢」的價值和「位置高低」的判斷標準。很多職業棋手開始使用 AI 訓練，學習突破傳統定式的新下法。

對局局面回顧​

第二盤的開局​

第 36 手後的局面​

傳統下法分析​

職業棋手的預期​

沒有人預料到的選擇​

第 37 手：五路肩衝​

這步棋在哪裡？​

什麼是「肩衝」？​

專家即時反應​

解說室的震驚​

職業棋手的實時評論​

「萬分之一的機率」​

AI 視角的解讀​

Policy Network 的機率分布​

MCTS 的深度評估​

Value Network 的全局評估​

棋理分析：為什麼是五路肩衝？​

從局部看​

從全局看​

李世乭的應對困境​

後續發展：從第 37 手到勝利​

中盤的演變​

最終結果​

對圍棋理論的影響​

新定式的誕生​

人類棋手的學習​

圍棋 AI 訓練的啟示​

技術細節：重現第 37 手的決策過程​

Policy Network 的輸入特徵​

Policy Network 的輸出​

MCTS 的探索過程​

模擬次數的影響​

哲學思考：人類與 AI 的認知差異​

為什麼人類想不到第 37 手？​

機器的「直覺」是什麼？​

人類能從 AI 學到什麼？​

動畫對應​

延伸閱讀​

互動探索​

Policy Network 機率分布​

參考資料​