「神之一手」深度分析

2016 年 3 月 10 日，AlphaGo 与李世乭的第二盘对局。第 37 手，AlphaGo 在右上方五路下出一步「肩冲」。

这一手棋，后来被称为「神之一手」（Divine Move）。它不只让 AlphaGo 赢得比赛，更改变了人类对围棋的理解。

本文将从多个角度深度分析这步棋：对局背景、传统棋理、专家反应、AI 视角，以及它对围棋理论的长远影响。

对局局面回顾

第二盘的开局

第一盘失利后，李世乭在第二盘做出调整。他选择执白后手，希望观察 AlphaGo 的开局倾向后再制定策略。

开局阶段：

黑 1：右上角星位
白 2：左下角星位
黑 3-白 4：双方各占一角

到第 36 手为止，局面发展正常。AlphaGo 执黑，在右上角进行了一场局部战斗。白棋（李世乭）在右边建立了势力，黑棋则在上边有一定实地。

第 36 手后的局面

让我们看看第 36 手后的棋盘状态：

	D	K	P	Q
19
18
17	○			●
16	+	+		+
15				●
14			○		白棋势力范围
13
12
11
10	+	+		+
9
8
7
6
5
4	+	+		+
3	○			●
2
1

简化示意图，实际局面更复杂

关键观察：

白棋在右边有外势
黑棋在上边有实地潜力
右上角的战斗告一段落

此时，轮到黑棋（AlphaGo）落子。

传统下法分析

职业棋手的预期

在第 37 手之前，解说室里的职业棋手正在热烈讨论。他们普遍预期黑棋会选择以下几种下法：

选项 A：右下角挂角

这是最「正常」的选择。黑棋可以：

抢占最后的大场（右下角）
保持局面平衡
遵循「金角银边草肚皮」的传统价值观

选项 B：上边围空

黑棋也可以在上边拆二或拆三，巩固自己的势力范围。这样可以：

将上边的潜力转化为实地
限制白棋的发展空间

选项 C：中央分投

一些棋手认为黑棋可能会在中央下一手，制约白棋的右边外势。这虽然不是最常见的选择，但在战略上也说得通。

🎬 C3：传统棋理的价值判断

没有人预料到的选择

然而，AlphaGo 选择了一个几乎没有人想到的位置：

E5（五路肩冲）

这一手落在了棋盘右半部、靠近中央的位置，是对白棋右边外势的一步「肩冲」。

第 37 手：五路肩冲

这步棋在哪里？

	D	K	P	Q
19
18
17	○			●
16	+	+		+
15		37		●	第 37 手
14			○
13
12

第 37 手下在了 K15（或称 J5，坐标系统因来源而异）位置。

什么是「肩冲」？

「肩冲」是围棋中的一个手筋，指的是斜向靠近对方棋子的下法。它的特点是：

不直接接触：与对方棋子保持一步距离
破坏结构：打乱对方的预期发展
难以应对：不管对方如何应对，都会产生某种代价

传统上，肩冲通常下在三路或四路。五路肩冲极为罕见，因为：

位置太高：五路靠近中央，传统认为效率较低
容易被攻击：孤立的棋子容易成为对方攻击目标
价值不明确：不像边角那样有明确的实地价值

🎬 C5：肩冲的几何特性

专家即时反应

解说室的震惊

第 37 手落下的瞬间，解说室陷入了短暂的沉默。

韩国解说（金成龙九段）：

「这...这是什么？这步棋下在五路？我不理解。这一定是失误吧？」

中国解说（古力九段）：

「我看不懂这步棋。如果是我的学生这样下，我会狠狠批评他。」

美国解说（Michael Redmond 九段）：

「Very unusual move. I don't think any human would play this.」

（非常不寻常的一手。我不认为有人类会这样下。）

职业棋手的实时评论

在各种直播平台上，职业棋手纷纷发表评论：

柯洁（当时世界排名第一）：

「我无法理解这步棋的意图。如果 AlphaGo 赢了，我会认真研究。」

朴廷桓（韩国顶尖棋手）：

「这步棋太奇怪了。是不是程序出了问题？」

芈昱廷（中国世界冠军）：

「五路肩冲？从来没见过这种下法。」

🎬 C7：专家直觉与 AI 评估的差距

「万分之一的概率」

赛后，DeepMind 团队透露了一个惊人的数据：

「根据我们的分析，如果一位职业棋手面对同样的局面，选择第 37 手这个位置的概率大约是 万分之一。」

换句话说，在人类的围棋知识体系中，这步棋几乎是「不存在」的选项。

AI 视角的解读

Policy Network 的概率分布

让我们看看 AlphaGo 的 Policy Network 如何评估这个局面：

載入中...

上图展示了 AlphaGo 对各个位置的落子概率评估。

关键观察：

第 37 手的位置：概率约 8%，并非最高
传统选点（如右下角）：概率约 12%
其他候选位置：分散在不同区域

有趣的是，第 37 手在 Policy Network 的评估中并非概率最高的选择。那为什么 AlphaGo 选择了它？

🎬 C9：Policy Network 的输出分布

MCTS 的深度评估

答案在于 蒙地卡罗树搜索（MCTS）。

Policy Network 只提供「直觉」，真正的决策来自 MCTS 的深度模拟。AlphaGo 在做出决定前，会模拟数千种可能的未来走向。

对于第 37 手，MCTS 的评估过程如下：

位置 K15（第 37 手）:
├── 模拟 1: 黑胜（+0.3）
├── 模拟 2: 黑胜（+0.5）
├── 模拟 3: 黑胜（+0.2）
├── ...
└── 平均胜率: 58%

位置 R3（右下角挂角）:
├── 模拟 1: 黑胜（+0.1）
├── 模拟 2: 白胜（-0.2）
├── 模拟 3: 黑胜（+0.2）
├── ...
└── 平均胜率: 52%

虽然右下角的「直觉概率」更高，但经过深度模拟后，第 37 手的预期胜率更高。

🎬 C11：MCTS 如何修正 Policy Network 的判断

Value Network 的全局评估

Value Network 从全局角度评估了第 37 手的价值：

下第 37 手前的胜率：约 52%（黑棋略优）

下第 37 手后的胜率：约 58%（黑棋明显优势）

这意味着，第 37 手让 AlphaGo 的预期胜率提升了 6 个百分点。

这个提升幅度在围棋中是相当显著的。通常，一步好棋能带来 2-3% 的胜率提升就已经很好了。

🎬 C13：Value Network 的增量评估

棋理分析：为什么是五路肩冲？

从局部看

表面上，第 37 手似乎效率很低：

位置太高：五路比四路或三路更靠近中央
没有实地：不像边角那样能直接围取实地
容易被攻击：孤立的棋子可能被白棋攻击

但如果我们仔细分析，这步棋有几个微妙的好处：

破坏白棋的外势：白棋原本计划在右边发展，第 37 手打乱了这个计划
建立自己的影响力：这步棋虽然不围实地，但在中央建立了存在感
增加变化：创造了复杂的局面，有利于计算能力更强的一方

从全局看

这步棋的真正价值需要从全局角度来理解：

厚势与实地的权衡

传统围棋理论认为「金角银边草肚皮」——角最有价值，中央最没价值。但第 37 手挑战了这个观念。

AlphaGo 的评估显示：在这个特定局面下，中央的影响力比边角的实地更有价值。

这是因为：

黑棋已经有足够的实地基础
白棋的右边外势如果发展起来会很强大
制约白棋比扩张自己更重要

🎬 C15：全局价值函数的计算

「先手」的价值

第 37 手还有一个被低估的好处：它保持了「先手」。

在围棋中，「先手」意味着掌握主动权。第 37 手下完后，白棋不得不应对，这让黑棋可以继续主导局面走向。

如果黑棋选择「正常」的右下角挂角，双方可能会在角部进行定式，然后局面趋于平衡。但第 37 手打破了这种平衡，让局面充满不确定性——而这正是 AlphaGo 所擅长的。

李世乭的应对困境

第 37 手之后，李世乭思考了很长时间。他面临的困境是：

如果直接应对（例如跳或飞）：

等于承认第 37 手的价值
让黑棋达到了破坏白棋外势的目的

如果不理会：

黑棋可能会进一步发展中央
白棋的右边外势难以成为实地

最终，李世乭选择了应对。但无论他选择什么，第 37 手已经达到了它的目的。

🎬 C17：博弈论中的强制选择

后续发展：从第 37 手到胜利

中盘的演变

第 37 手之后，对局进入了复杂的中盘战斗。

关键进展：

手数 40-50：双方在右边进行了激烈的接触战
手数 50-70：AlphaGo 利用第 37 手建立的影响力，在中央取得优势
手数 70-100：黑棋逐渐将优势转化为实地

到了第 100 手左右，AlphaGo 的领先已经相当明显。李世乭虽然努力反击，但无法扭转局势。

最终结果

AlphaGo 中盘胜

这盘棋的胜利，第 37 手居功至伟。赛后分析显示，如果没有第 37 手，局面会更加接近，白棋甚至可能取得优势。

🎬 C19：一步棋如何改变整盘棋的走向

对围棋理论的影响

新定式的诞生

第 37 手引发了围棋界对「肩冲」这个手筋的重新思考。

传统观点：

肩冲应该下在三路或四路
五路肩冲效率太低
孤立的棋子容易被攻击

AlphaGo 之后：

五路肩冲在特定局面下是最佳选择
位置的「高低」不如「效果」重要
需要从全局角度评估每一步棋的价值

人类棋手的学习

第 37 手之后，许多职业棋手开始尝试类似的下法：

柯洁在 2017 年的几盘对局中使用了五路肩冲，并取得成功：

「AlphaGo 教会我，很多我们认为『不好』的棋，其实只是我们不理解。」

朴廷桓也在自己的对局中借鉴了这种思维方式：

「重要的不是记住第 37 手这个具体的位置，而是学会用新的眼光看待棋盘。」

🎬 C21：AI 如何拓展人类的认知边界

围棋 AI 训练的启示

第 37 手对围棋 AI 的研究也有深远影响：

对 Policy Network 的反思：

为什么 Policy Network 给第 37 手的概率较低？因为它是从人类棋谱中学习的，而人类几乎不会下这种棋。

这说明：仅靠监督学习（从人类学习）是不够的。AI 需要自我探索，才能发现人类未知的好棋。

这也是后来 AlphaGo Zero 采用纯自我对弈训练的原因之一。

对 MCTS 的肯定：

第 37 手证明了 MCTS 深度搜索的价值。即使直觉（Policy Network）不看好一步棋，深度分析也能发现它的潜在价值。

这个洞见后来被应用到许多其他领域。

技术细节：重现第 37 手的决策过程

Policy Network 的输入特征

在第 36 手后，Policy Network 的输入包括：

特征平面	描述
1-8	黑棋位置（过去 8 步）
9-16	白棋位置（过去 8 步）
17	当前该谁下
18-48	其他特征（气数、叫吃等）

总计 48 个 19x19 的特征平面，构成输入张量。

🎬 C23：特征工程在 AI 围棋中的重要性

Policy Network 的输出

Policy Network 输出一个 19x19 = 361 维的概率分布。

对于第 37 手的局面：

# 前 5 名候选位置（简化示意）
{
    "R3": 0.12,   # 右下角挂角
    "Q17": 0.10,  # 右上角
    "C10": 0.09,  # 左边大场
    "K15": 0.08,  # 第 37 手的位置
    "D16": 0.07,  # 左上角
    # ... 其他 356 个位置
}

MCTS 的探索过程

AlphaGo 使用 PUCT 公式来平衡探索与利用：

U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))

其中：

Q(s,a)：位置 a 的平均价值
P(s,a)：Policy Network 给出的概率
N(s,a)：该位置被探索的次数
c_puct：探索常数

对于第 37 手，虽然初始概率 P 较低，但经过多次模拟后，Q 值不断提高，最终超过了其他候选位置。

🎬 C25：PUCT 公式如何发现非直觉的好棋

模拟次数的影响

DeepMind 团队后来分析，第 37 手的「发现」需要足够的模拟次数：

模拟次数	最佳选择
100	R3（右下角）
1,000	Q17（右上角）
10,000	K15（第 37 手）
100,000	K15（更确定）

这说明：深度搜索能够发现浅层搜索无法找到的好棋。

哲学思考：人类与 AI 的认知差异

为什么人类想不到第 37 手？

这是一个深刻的问题。可能的原因包括：

1. 经验的局限

人类棋手的知识来自学习前人的棋谱。如果前人从来没有下过某种棋，我们就不会去考虑它。

2. 直觉的偏见

人类的直觉是有用的，但也是有局限的。我们的直觉会让我们「看不见」某些选项。

3. 计算能力的差异

第 37 手的价值需要经过深度计算才能发现。人类的计算能力有限，无法像 AI 那样模拟数千种可能。

🎬 C27：认知偏见与 AI 的超越

机器的「直觉」是什么？

AlphaGo 有「直觉」吗？

从某种意义上说，Policy Network 就是 AlphaGo 的「直觉」——它可以在毫秒内评估每个位置的潜力。

但这种「直觉」与人类的直觉不同：

人类的直觉：来自经验和模式识别
AI 的直觉：来自大量数据的统计学习

有趣的是，第 37 手证明了：AI 的「直觉」可以被 MCTS 修正。这意味着 AI 能够「反思」自己的直觉，找到更好的选择。

人类能从 AI 学到什么？

第 37 手给人类棋手的最大启示可能是：

不要让经验成为枷锁

很多「不好」的棋，可能只是我们不理解。打开心态，愿意尝试非传统的下法，可能会发现新的可能性。

这个启示不只适用于围棋，也适用于人生的许多领域。

动画对应

本文涉及的核心概念与动画编号：

编号	概念	物理/数学对应
🎬 C3	传统棋理的价值判断	启发式函数
🎬 C5	肩冲的几何特性	空间关系
🎬 C7	专家直觉与 AI 评估的差距	预测误差
🎬 C9	Policy Network 的输出分布	Softmax 概率
🎬 C11	MCTS 如何修正 Policy Network	贝氏更新
🎬 C13	Value Network 的增量评估	价值函数
🎬 C15	全局价值函数的计算	积分近似
🎬 C17	博弈论中的强制选择	优势策略
🎬 C19	一步棋改变整盘棋的走向	分岔点
🎬 C21	AI 如何拓展人类的认知边界	搜索空间扩展
🎬 C23	特征工程在 AI 围棋中的重要性	表示学习
🎬 C25	PUCT 公式如何发现非直觉的好棋	探索-利用权衡
🎬 C27	认知偏见与 AI 的超越	无偏估计

互动探索

Policy Network 概率分布

使用下方的互动视觉化，探索不同局面下 Policy Network 的输出：

載入中...

尝试切换不同的预设局面，观察 AI 如何评估各个位置的落子概率。

参考资料

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
DeepMind Blog: "AlphaGo: The story so far"
《AlphaGo》纪录片 (2017)，导演 Greg Kohs。
李世乭 vs AlphaGo 第二盘官方棋谱
Go4Go.net 专业棋谱分析
韩国棋院赛后技术报告

对局局面回顾​

第二盘的开局​

第 36 手后的局面​

传统下法分析​

职业棋手的预期​

没有人预料到的选择​

第 37 手：五路肩冲​

这步棋在哪里？​

什么是「肩冲」？​

专家即时反应​

解说室的震惊​

职业棋手的实时评论​

「万分之一的概率」​

AI 视角的解读​

Policy Network 的概率分布​

MCTS 的深度评估​

Value Network 的全局评估​

棋理分析：为什么是五路肩冲？​

从局部看​

从全局看​

李世乭的应对困境​

后续发展：从第 37 手到胜利​

中盘的演变​

最终结果​

对围棋理论的影响​

新定式的诞生​

人类棋手的学习​

围棋 AI 训练的启示​

技术细节：重现第 37 手的决策过程​

Policy Network 的输入特征​

Policy Network 的输出​

MCTS 的探索过程​

模拟次数的影响​

哲学思考：人类与 AI 的认知差异​

为什么人类想不到第 37 手？​

机器的「直觉」是什么？​

人类能从 AI 学到什么？​

动画对应​

延伸阅读​

互动探索​

Policy Network 概率分布​

参考资料​