跳至主要内容

動畫教室

一個動畫，兩個領域，一個本質。

本區塊收錄 109 個圍棋 AI 教學動畫，每個概念都有對應的物理或數學概念，幫助你用已知理解未知。

即將推出

動畫影片正在製作中，目前先提供概念速查表。

概念總覽

系列	數量	主題	難度
A 系列	11	資料結構與表示	⭐ 入門
B 系列	11	搜尋與樹結構	⭐ 入門
C 系列	10	蒙地卡羅方法	⭐⭐ 進階
D 系列	18	神經網路	⭐⭐ 進階
E 系列	13	AlphaGo 架構	⭐⭐⭐ 專業
F 系列	8	縮放	⭐⭐⭐ 專業
G 系列	6	維度	⭐⭐ 進階
H 系列	9	強化學習	⭐⭐⭐ 專業
I 系列	6	博弈論	⭐⭐ 進階
J 系列	6	資訊理論	⭐⭐⭐ 專業
K 系列	6	優化方法	⭐⭐ 進階
L 系列	5	泛化與穩定	⭐⭐ 進階
總計	109

A 系列：資料結構與表示

如何將圍棋棋盤表示為電腦可處理的資料結構。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
A1	網格上的狀態	棋盤 19×19	離散網格	狀態的基本單位
A2	晶格模型	棋盤結構	晶格模型	規則排列的點陣
A3	細胞自動機	棋盤演化	細胞自動機	局部規則產生全局行為
A4	鄰居關係	四鄰點	最近鄰交互作用	只和相鄰的影響
A5	局部連接	四鄰點	局部連接	局部感受野
A6	連通區域	棋串（group）	滲流理論	連通性分析
A7	氣的計算	氣（liberty）	邊界條件	生存的約束
A8	狀態編碼	空/黑/白	三態系統	離散狀態編碼
A9	棋盤對稱性	8 種等價變換	D4 群	對稱性利用
A10	歷史堆疊	多幀輸入	時間序列	歷史資訊
A11	合法手遮罩	禁手過濾	可行域	約束滿足

B 系列：搜尋與樹結構

如何在巨大的決策空間中搜索最佳下法。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
B1	遊戲樹展開	所有可能棋步	分支過程	決策樹展開
B2	組合爆炸	棋步組合數	組合爆炸	指數成長
B3	Minimax 搜尋	極大極小	鞍點	雙方最優
B4	對偶性	攻防轉換	對偶性	視角互換
B5	變分原理	最優策略	變分原理	極值問題
B6	對抗動力學	雙方對弈	對抗動力學	競爭系統
B7	Alpha-Beta 剪枝	減少搜尋	相消干涉	無效分支消除
B8	分支因子爆炸	250^150	指數爆炸	不可窮舉
B9	迭代加深	逐層搜尋	廣度優先波	逐層擴展
B10	啟發式搜尋	優先探索好棋	導引場	優先探索
B11	轉置表	重複局面記憶	記憶化/快取	重複利用

C 系列：蒙地卡羅方法

用隨機模擬估計勝率的方法。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
C1	隨機取樣	random playout	蒙地卡羅積分	用隨機估計期望
C2	大數法則	勝率收斂	大數定律	樣本越多越準
C3	探索 vs 利用	UCB 公式	自由能權衡	探索與利用的平衡
C4	溫度參數	探索強度	玻茲曼溫度	隨機性控制
C5	MCTS 四步驟	Select→Expand→Simulate→Backprop	樹的遍歷	搜索過程
C6	樹的成長	節點累積	晶體成長	搜索樹逐漸生長
C7	勝率熱力圖	各點勝率	熱力學分布	視覺化勝率分布
C8	置信區間	勝率估計誤差	統計誤差	估計的不確定性
C9	虛擬損失	並行 MCTS 避免重複	排斥力	分散探索
C10	漸進展寬	逐步增加子節點	漸進抽樣	動態擴展

D 系列：神經網路

深度學習的核心概念。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
D1	感知器	單一神經元	閾值開關	基本計算單元
D2	激活函數	ReLU/Sigmoid	非線性響應	引入非線性
D3	前向傳播	計算輸出	前饋網路	資訊流動方向
D4	損失地形	loss landscape	損失曲面	優化目標
D5	梯度下降	參數更新	球滾下山	找最低點
D6	學習率效應	lr 太大/太小	欠阻尼/過阻尼	步長控制
D7	局部最小值	卡住	局部極小	非全局最優
D8	動量法	momentum	慣性	加速收斂
D9	卷積運算	CNN kernel	空間濾波	局部特徵提取
D10	特徵圖	feature map	繞射圖案	特徵視覺化
D11	池化	max pooling	降採樣	減少維度
D12	殘差連接	skip connection	電路並聯	梯度直通路徑
D13	反向傳播	鏈式法則	波的反射	誤差回傳
D14	注意力機制	Transformer	選擇性聚焦	動態權重
D15	對抗樣本	adversarial	負曲率方向	脆弱性
D16	批次正規化	Batch Norm	標準化	穩定訓練
D17	權重初始化	Xavier/He 初始化	初始條件敏感性	起點選擇
D18	梯度消失/爆炸	深層網路問題	梯度流動	深層訓練困難

E 系列：AlphaGo 架構

AlphaGo 及其後續版本的核心設計。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
E1	策略網路	policy network	策略分布	下哪裡的機率
E2	價值網路	value network	價值函數	局面好壞評估
E3	雙頭網路	policy + value	多任務學習	共享表示
E4	PUCT 公式	策略引導搜尋	有偏擴散	探索與利用結合
E5	自我對弈	self-play	不動點收斂	自我提升
E6	棋力成長曲線	Elo rating	S 曲線成長	學習進度
E7	從零開始	AlphaGo Zero	自組織	無需人類知識
E8	知識蒸餾	大模型→小模型	熱傳導	壓縮知識
E9	分散式訓練	多 GPU	並行計算	加速訓練
E10	Dirichlet 噪聲	根節點探索	狄利克雷分布	隨機探索
E11	殘差塔	深層特徵提取	多級處理	層層抽象
E12	訓練課程	從簡單到困難	課程學習	漸進難度
E13	MuZero	學習環境模型	世界模型	不需規則

F 系列：縮放

模型大小、計算資源與性能的關係。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
F1	複雜度縮放	N×N 棋盤的分支因子	狀態空間爆炸	棋盤越大越難
F2	複雜度理論	狀態空間大小	複雜度理論	問題難度分類
F3	有限尺寸效應	小棋盤 vs 大棋盤	有限尺寸縮放	邊界影響
F4	連續極限	棋盤無限大時	場論連續極限	趨向連續
F5	計算資源縮放	更多算力 → 更強棋力	縮放定律	投入與產出
F6	神經縮放律	更大模型 → 更強	尺度不變性	模型大小效應
F7	訓練時間縮放	更長訓練的效益	漸近分析	收益遞減
F8	湧現能力	規模增大→棋力質變	相變/臨界現象	突然變強

G 系列：維度

高維空間中的表示與操作。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
G1	高維表示	棋局 embedding 向量	高維向量空間	數值化表示
G2	維度詛咒	高維中相似局面難找	距離集中現象	高維稀疏
G3	降維可視化	embedding 投影	t-SNE / PCA	看到結構
G4	相似局面搜索	找歷史相似棋局	向量資料庫	快速檢索
G5	流形假設	有效狀態在低維流形	低維流形	內在維度低
G6	稀疏表示	大部分特徵為零	稀疏編碼	高效表示

H 系列：強化學習

從獎勵信號學習最優策略。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
H1	MDP 狀態轉移	棋局狀態與落子	馬可夫鏈	狀態轉移
H2	獎勵信號	勝/負/和	目標函數	學習目標
H3	折扣因子	未來勝負權重 γⁿ	時間折現	遠近權衡
H4	策略梯度	Policy 訓練	策略梯度法	直接優化策略
H5	經驗回放	對弈記錄重用	經驗緩衝區	數據再利用
H6	熵正則化	鼓勵探索	熵正則項	避免過早收斂
H7	TD 學習	時序差分更新	增量估計	逐步修正
H8	優勢函數	相對於平均的好壞	相對價值	好多少
H9	Actor-Critic	策略+價值同時學	階層控制	雙重學習

I 系列：博弈論

多人決策的數學理論。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
I1	零和博弈	一方贏 = 另一方輸	守恆律	利益守恆
I2	納許均衡	最優策略對	策略不動點	穩定狀態
I3	混合策略	隨機選擇落子	隨機化策略	不可預測
I4	完美資訊	雙方都看得到棋盤	完全資訊博弈	無隱藏
I5	遺憾最小化	減少事後懊悔	Regret Minimization	學習後悔
I6	自博弈收斂	對弈雙方趨於穩定	演化穩定策略	長期平衡

J 系列：資訊理論

資訊的量化與傳遞。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
J1	策略熵	落子分布的不確定性	夏農熵	隨機程度
J2	KL 散度	新舊策略的差異	相對熵	分布距離
J3	互資訊	局面特徵與勝負的關聯	互資訊	共享資訊
J4	資訊增益	一步棋帶來的資訊量	資訊增益	學到多少
J5	資訊瓶頸	壓縮且保留關鍵資訊	Information Bottleneck	去蕪存菁
J6	最小描述長度	最簡模型選擇	MDL 原理	簡單即美

K 系列：優化方法

如何有效訓練神經網路。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
K1	Adam 優化器	自適應學習率	自適應步長	智能調整
K2	學習率調度	訓練過程調整 lr	模擬退火	動態調整
K3	權重衰減	weight decay	耗散力	防止過大
K4	梯度裁剪	防止梯度爆炸	速度限制	安全閥
K5	二階優化	利用曲率資訊	Hessian/曲率	更聰明的步伐
K6	隨機梯度噪聲	SGD 的隨機性	梯度噪聲注入	有益的雜訊

L 系列：泛化與穩定

如何讓模型在未見過的局面也表現良好。

編號	標題	圍棋概念	物理/數學對應	直覺解釋
L1	過擬合	記住訓練局面	過度適應	背答案
L2	正則化	限制模型複雜度	拉格朗日乘數	加約束
L3	Dropout	隨機丟棄神經元	隨機遮蔽	增強魯棒性
L4	早停	適時停止訓練	最優停止問題	見好就收
L5	模型集成	多模型投票	統計平均	集體智慧

延伸閱讀

AlphaGo 完整解析 — 20 篇深度文章
一篇文章搞懂圍棋 AI — 快速入門
KataGo 的關鍵創新 — 50 倍效率提升

概念總覽
A 系列：資料結構與表示
B 系列：搜尋與樹結構
C 系列：蒙地卡羅方法
D 系列：神經網路
E 系列：AlphaGo 架構
F 系列：縮放
G 系列：維度
H 系列：強化學習
I 系列：博弈論
J 系列：資訊理論
K 系列：優化方法
L 系列：泛化與穩定
延伸閱讀