動畫教室
一個動畫,兩個領域,一個本質。
本區塊收錄 109 個圍棋 AI 教學動畫,每個概念都有對應的物理或數學概念,幫助你用已知理解未知。
即將推出
動畫影片正在製作中,目前先提供概念速查表。
概念總覽
| 系列 | 數量 | 主題 | 難度 |
|---|---|---|---|
| A 系列 | 11 | 資料結構與表示 | ⭐ 入門 |
| B 系列 | 11 | 搜尋與樹結構 | ⭐ 入門 |
| C 系列 | 10 | 蒙地卡羅方法 | ⭐⭐ 進階 |
| D 系列 | 18 | 神經網路 | ⭐⭐ 進階 |
| E 系列 | 13 | AlphaGo 架構 | ⭐⭐⭐ 專業 |
| F 系列 | 8 | 縮放 | ⭐⭐⭐ 專業 |
| G 系列 | 6 | 維度 | ⭐⭐ 進階 |
| H 系列 | 9 | 強化學習 | ⭐⭐⭐ 專業 |
| I 系列 | 6 | 博弈論 | ⭐⭐ 進階 |
| J 系列 | 6 | 資訊理論 | ⭐⭐⭐ 專業 |
| K 系列 | 6 | 優化方法 | ⭐⭐ 進階 |
| L 系列 | 5 | 泛化與穩定 | ⭐⭐ 進階 |
| 總計 | 109 |
A 系列:資料結構與表示
如何將圍棋棋盤表示為電腦可處理的資料結構。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| A1 | 網格上的狀態 | 棋盤 19×19 | 離散網格 | 狀態的基本單位 |
| A2 | 晶格模型 | 棋盤結構 | 晶格模型 | 規則排列的點陣 |
| A3 | 細胞自動機 | 棋盤演化 | 細胞自動機 | 局部規則產生全局行為 |
| A4 | 鄰居關係 | 四鄰點 | 最近鄰交互作用 | 只和相鄰的影響 |
| A5 | 局部連接 | 四鄰點 | 局部連接 | 局部感受野 |
| A6 | 連通區域 | 棋串(group) | 滲流理論 | 連通性分析 |
| A7 | 氣的計算 | 氣(liberty) | 邊界條件 | 生存的約束 |
| A8 | 狀態編碼 | 空/黑/白 | 三態系統 | 離散狀態編碼 |
| A9 | 棋盤對稱性 | 8 種等價變換 | D4 群 | 對稱性利用 |
| A10 | 歷史堆疊 | 多幀輸入 | 時間序列 | 歷史資訊 |
| A11 | 合法手遮罩 | 禁手過濾 | 可行域 | 約束滿足 |
B 系列:搜尋與樹結構
如何在巨大的決策空間中搜索最佳下法。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| B1 | 遊戲樹展開 | 所有可能棋步 | 分支過程 | 決策樹展開 |
| B2 | 組合爆炸 | 棋步組合數 | 組合爆炸 | 指數成長 |
| B3 | Minimax 搜尋 | 極大極小 | 鞍點 | 雙方最優 |
| B4 | 對偶性 | 攻防轉換 | 對偶性 | 視角互換 |
| B5 | 變分原理 | 最優策略 | 變分原理 | 極值問題 |
| B6 | 對抗動力學 | 雙方對弈 | 對抗動力學 | 競爭系統 |
| B7 | Alpha-Beta 剪枝 | 減少搜尋 | 相消干涉 | 無效分支消除 |
| B8 | 分支因子爆炸 | 250^150 | 指數爆炸 | 不可窮舉 |
| B9 | 迭代加深 | 逐層搜尋 | 廣度優先波 | 逐層擴展 |
| B10 | 啟發式搜尋 | 優先探索好棋 | 導引場 | 優先探索 |
| B11 | 轉置表 | 重複局面記憶 | 記憶化/快取 | 重複利用 |
C 系列:蒙地卡羅方法
用隨機模擬估計勝率的方法。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| C1 | 隨機取樣 | random playout | 蒙地卡羅積分 | 用隨機估計期望 |
| C2 | 大數法則 | 勝率收斂 | 大數定律 | 樣本越多越準 |
| C3 | 探索 vs 利用 | UCB 公式 | 自由能權衡 | 探索與利用的平衡 |
| C4 | 溫度參數 | 探索強度 | 玻茲曼溫度 | 隨機性控制 |
| C5 | MCTS 四步驟 | Select→Expand→Simulate→Backprop | 樹的遍歷 | 搜索過程 |
| C6 | 樹的成長 | 節點累積 | 晶體成長 | 搜索樹逐漸生長 |
| C7 | 勝率熱力圖 | 各點勝率 | 熱力學分布 | 視覺化勝率分布 |
| C8 | 置信區間 | 勝率估計誤差 | 統計誤差 | 估計的不確定性 |
| C9 | 虛擬損失 | 並行 MCTS 避免重複 | 排斥力 | 分散探索 |
| C10 | 漸進展寬 | 逐步增加子節點 | 漸進抽樣 | 動態擴展 |
D 系列:神經網路
深度學習的核心概念。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| D1 | 感知器 | 單一神經元 | 閾值開關 | 基本計算單元 |
| D2 | 激活函數 | ReLU/Sigmoid | 非線性響應 | 引入非線性 |
| D3 | 前向傳播 | 計算輸出 | 前饋網路 | 資訊流動方向 |
| D4 | 損失地形 | loss landscape | 損失曲面 | 優化目標 |
| D5 | 梯度下降 | 參數更新 | 球滾下山 | 找最低點 |
| D6 | 學習率效應 | lr 太大/太小 | 欠阻尼/過阻尼 | 步長控制 |
| D7 | 局部最小值 | 卡住 | 局部極小 | 非全局最優 |
| D8 | 動量法 | momentum | 慣性 | 加速收斂 |
| D9 | 卷積運算 | CNN kernel | 空間濾波 | 局部特徵提取 |
| D10 | 特徵圖 | feature map | 繞射圖案 | 特徵視覺化 |
| D11 | 池化 | max pooling | 降採樣 | 減少維度 |
| D12 | 殘差連接 | skip connection | 電路並聯 | 梯度直通路徑 |
| D13 | 反向傳播 | 鏈式法則 | 波的反射 | 誤差回傳 |
| D14 | 注意力機制 | Transformer | 選擇性聚焦 | 動態權重 |
| D15 | 對抗樣本 | adversarial | 負曲率方向 | 脆弱性 |
| D16 | 批次正規化 | Batch Norm | 標準化 | 穩定訓練 |
| D17 | 權重初始化 | Xavier/He 初始化 | 初始條件敏感性 | 起點選擇 |
| D18 | 梯度消失/爆炸 | 深層網路問題 | 梯度流動 | 深層訓練困難 |
E 系列:AlphaGo 架構
AlphaGo 及其後續版本的核心設計。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| E1 | 策略網路 | policy network | 策略分布 | 下哪裡的機率 |
| E2 | 價值網路 | value network | 價值函數 | 局面好壞評估 |
| E3 | 雙頭網路 | policy + value | 多任務學習 | 共享表示 |
| E4 | PUCT 公式 | 策略引導搜尋 | 有偏擴散 | 探索與利用結合 |
| E5 | 自我對弈 | self-play | 不動點收斂 | 自我提升 |
| E6 | 棋力成長曲線 | Elo rating | S 曲線成長 | 學習進度 |
| E7 | 從零開始 | AlphaGo Zero | 自組織 | 無需人類知識 |
| E8 | 知識蒸餾 | 大模型→小模型 | 熱傳導 | 壓縮知識 |
| E9 | 分散式訓練 | 多 GPU | 並行計算 | 加速訓練 |
| E10 | Dirichlet 噪聲 | 根節點探索 | 狄利克雷分布 | 隨機探索 |
| E11 | 殘差塔 | 深層特徵提取 | 多級處理 | 層層抽象 |
| E12 | 訓練課程 | 從簡單到困難 | 課程學習 | 漸進難度 |
| E13 | MuZero | 學習環境模型 | 世界模型 | 不需規則 |
F 系列:縮放
模型大小、計算資源與性能的關係。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| F1 | 複雜度縮放 | N×N 棋盤的分支因子 | 狀態空間爆炸 | 棋盤越大越難 |
| F2 | 複雜度理論 | 狀態空間大小 | 複雜度理論 | 問題難度分類 |
| F3 | 有限尺寸效應 | 小棋盤 vs 大棋盤 | 有限尺寸縮放 | 邊界影響 |
| F4 | 連續極限 | 棋盤無限大時 | 場論連續極限 | 趨向連續 |
| F5 | 計算資源縮放 | 更多算力 → 更強棋力 | 縮放定律 | 投入與產出 |
| F6 | 神經縮放律 | 更大模型 → 更強 | 尺度不變性 | 模型大小效應 |
| F7 | 訓練時間縮放 | 更長訓練的效益 | 漸近分析 | 收益遞減 |
| F8 | 湧現能力 | 規模增大→棋力質變 | 相變/臨界現象 | 突然變強 |
G 系列:維度
高維空間中的表示與操作。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| G1 | 高維表示 | 棋局 embedding 向量 | 高維向量空間 | 數值化表示 |
| G2 | 維度詛咒 | 高維中相似局面難找 | 距離集中現象 | 高維稀疏 |
| G3 | 降維可視化 | embedding 投影 | t-SNE / PCA | 看到結構 |
| G4 | 相似局面搜索 | 找歷史相似棋局 | 向量資料庫 | 快速檢索 |
| G5 | 流形假設 | 有效狀態在低維流形 | 低維流形 | 內在維度低 |
| G6 | 稀疏表示 | 大部分特徵為零 | 稀疏編碼 | 高效表示 |
H 系列:強化學習
從獎勵信號學習最優策略。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| H1 | MDP 狀態轉移 | 棋局狀態與落子 | 馬可夫鏈 | 狀態轉移 |
| H2 | 獎勵信號 | 勝/負/和 | 目標函數 | 學習目標 |
| H3 | 折扣因子 | 未來勝負權重 γⁿ | 時間折現 | 遠近權衡 |
| H4 | 策略梯度 | Policy 訓練 | 策略梯度法 | 直接優化策略 |
| H5 | 經驗回放 | 對弈記錄重用 | 經驗緩衝區 | 數據再利用 |
| H6 | 熵正則化 | 鼓勵探索 | 熵正則項 | 避免過早收斂 |
| H7 | TD 學習 | 時序差分更新 | 增量估計 | 逐步修正 |
| H8 | 優勢函數 | 相對於平均的好壞 | 相對價值 | 好多少 |
| H9 | Actor-Critic | 策略+價值同時學 | 階層控制 | 雙重學習 |
I 系列:博弈論
多人決策的數學理論。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| I1 | 零和博弈 | 一方贏 = 另一方輸 | 守恆律 | 利益守恆 |
| I2 | 納許均衡 | 最優策略對 | 策略不動點 | 穩定狀態 |
| I3 | 混合策略 | 隨機選擇落子 | 隨機化策略 | 不可預測 |
| I4 | 完美資訊 | 雙方都看得到棋盤 | 完全資訊博弈 | 無隱藏 |
| I5 | 遺憾最小化 | 減少事後懊悔 | Regret Minimization | 學習後悔 |
| I6 | 自博弈收斂 | 對弈雙方趨於穩定 | 演化穩定策略 | 長期平衡 |
J 系列:資訊理論
資訊的量化與傳遞。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| J1 | 策略熵 | 落子分布的不確定性 | 夏農熵 | 隨機程度 |
| J2 | KL 散度 | 新舊策略的差異 | 相對熵 | 分布距離 |
| J3 | 互資訊 | 局面特徵與勝負的關聯 | 互資訊 | 共享資訊 |
| J4 | 資訊增益 | 一步棋帶來的資訊量 | 資訊增益 | 學到多少 |
| J5 | 資訊瓶頸 | 壓縮且保留關鍵資訊 | Information Bottleneck | 去蕪存菁 |
| J6 | 最小描述長度 | 最簡模型選擇 | MDL 原理 | 簡單即美 |
K 系列:優化方法
如何有效訓練神經網路。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| K1 | Adam 優化器 | 自適應學習率 | 自適應步長 | 智能調整 |
| K2 | 學習率調度 | 訓練過程調整 lr | 模擬退火 | 動態調整 |
| K3 | 權重衰減 | weight decay | 耗散力 | 防止過大 |
| K4 | 梯度裁剪 | 防止梯度爆炸 | 速度限制 | 安全閥 |
| K5 | 二階優化 | 利用曲率資訊 | Hessian/曲率 | 更聰明的步伐 |
| K6 | 隨機梯度噪聲 | SGD 的隨機性 | 梯度噪聲注入 | 有益的雜訊 |
L 系列:泛化與穩定
如何讓模型在未見過的局面也表現良好。
| 編號 | 標題 | 圍棋概念 | 物理/數學對應 | 直覺解釋 |
|---|---|---|---|---|
| L1 | 過擬合 | 記住訓練局面 | 過度適應 | 背答案 |
| L2 | 正則化 | 限制模型複雜度 | 拉格朗日乘數 | 加約束 |
| L3 | Dropout | 隨機丟棄神經元 | 隨機遮蔽 | 增強魯棒性 |
| L4 | 早停 | 適時停止訓練 | 最優停止問題 | 見好就收 |
| L5 | 模型集成 | 多模型投票 | 統計平均 | 集體智慧 |
延伸閱讀
- AlphaGo 完整解析 — 20 篇深度文章
- 一篇文章搞懂圍棋 AI — 快速入門
- KataGo 的關鍵創新 — 50 倍效率提升