跳至主要内容

動畫教室

一個動畫,兩個領域,一個本質。

本區塊收錄 109 個圍棋 AI 教學動畫,每個概念都有對應的物理或數學概念,幫助你用已知理解未知。

即將推出

動畫影片正在製作中,目前先提供概念速查表。


概念總覽

系列數量主題難度
A 系列11資料結構與表示⭐ 入門
B 系列11搜尋與樹結構⭐ 入門
C 系列10蒙地卡羅方法⭐⭐ 進階
D 系列18神經網路⭐⭐ 進階
E 系列13AlphaGo 架構⭐⭐⭐ 專業
F 系列8縮放⭐⭐⭐ 專業
G 系列6維度⭐⭐ 進階
H 系列9強化學習⭐⭐⭐ 專業
I 系列6博弈論⭐⭐ 進階
J 系列6資訊理論⭐⭐⭐ 專業
K 系列6優化方法⭐⭐ 進階
L 系列5泛化與穩定⭐⭐ 進階
總計109

A 系列:資料結構與表示

如何將圍棋棋盤表示為電腦可處理的資料結構。

編號標題圍棋概念物理/數學對應直覺解釋
A1網格上的狀態棋盤 19×19離散網格狀態的基本單位
A2晶格模型棋盤結構晶格模型規則排列的點陣
A3細胞自動機棋盤演化細胞自動機局部規則產生全局行為
A4鄰居關係四鄰點最近鄰交互作用只和相鄰的影響
A5局部連接四鄰點局部連接局部感受野
A6連通區域棋串(group)滲流理論連通性分析
A7氣的計算氣(liberty)邊界條件生存的約束
A8狀態編碼空/黑/白三態系統離散狀態編碼
A9棋盤對稱性8 種等價變換D4 群對稱性利用
A10歷史堆疊多幀輸入時間序列歷史資訊
A11合法手遮罩禁手過濾可行域約束滿足

B 系列:搜尋與樹結構

如何在巨大的決策空間中搜索最佳下法。

編號標題圍棋概念物理/數學對應直覺解釋
B1遊戲樹展開所有可能棋步分支過程決策樹展開
B2組合爆炸棋步組合數組合爆炸指數成長
B3Minimax 搜尋極大極小鞍點雙方最優
B4對偶性攻防轉換對偶性視角互換
B5變分原理最優策略變分原理極值問題
B6對抗動力學雙方對弈對抗動力學競爭系統
B7Alpha-Beta 剪枝減少搜尋相消干涉無效分支消除
B8分支因子爆炸250^150指數爆炸不可窮舉
B9迭代加深逐層搜尋廣度優先波逐層擴展
B10啟發式搜尋優先探索好棋導引場優先探索
B11轉置表重複局面記憶記憶化/快取重複利用

C 系列:蒙地卡羅方法

用隨機模擬估計勝率的方法。

編號標題圍棋概念物理/數學對應直覺解釋
C1隨機取樣random playout蒙地卡羅積分用隨機估計期望
C2大數法則勝率收斂大數定律樣本越多越準
C3探索 vs 利用UCB 公式自由能權衡探索與利用的平衡
C4溫度參數探索強度玻茲曼溫度隨機性控制
C5MCTS 四步驟Select→Expand→Simulate→Backprop樹的遍歷搜索過程
C6樹的成長節點累積晶體成長搜索樹逐漸生長
C7勝率熱力圖各點勝率熱力學分布視覺化勝率分布
C8置信區間勝率估計誤差統計誤差估計的不確定性
C9虛擬損失並行 MCTS 避免重複排斥力分散探索
C10漸進展寬逐步增加子節點漸進抽樣動態擴展

D 系列:神經網路

深度學習的核心概念。

編號標題圍棋概念物理/數學對應直覺解釋
D1感知器單一神經元閾值開關基本計算單元
D2激活函數ReLU/Sigmoid非線性響應引入非線性
D3前向傳播計算輸出前饋網路資訊流動方向
D4損失地形loss landscape損失曲面優化目標
D5梯度下降參數更新球滾下山找最低點
D6學習率效應lr 太大/太小欠阻尼/過阻尼步長控制
D7局部最小值卡住局部極小非全局最優
D8動量法momentum慣性加速收斂
D9卷積運算CNN kernel空間濾波局部特徵提取
D10特徵圖feature map繞射圖案特徵視覺化
D11池化max pooling降採樣減少維度
D12殘差連接skip connection電路並聯梯度直通路徑
D13反向傳播鏈式法則波的反射誤差回傳
D14注意力機制Transformer選擇性聚焦動態權重
D15對抗樣本adversarial負曲率方向脆弱性
D16批次正規化Batch Norm標準化穩定訓練
D17權重初始化Xavier/He 初始化初始條件敏感性起點選擇
D18梯度消失/爆炸深層網路問題梯度流動深層訓練困難

E 系列:AlphaGo 架構

AlphaGo 及其後續版本的核心設計。

編號標題圍棋概念物理/數學對應直覺解釋
E1策略網路policy network策略分布下哪裡的機率
E2價值網路value network價值函數局面好壞評估
E3雙頭網路policy + value多任務學習共享表示
E4PUCT 公式策略引導搜尋有偏擴散探索與利用結合
E5自我對弈self-play不動點收斂自我提升
E6棋力成長曲線Elo ratingS 曲線成長學習進度
E7從零開始AlphaGo Zero自組織無需人類知識
E8知識蒸餾大模型→小模型熱傳導壓縮知識
E9分散式訓練多 GPU並行計算加速訓練
E10Dirichlet 噪聲根節點探索狄利克雷分布隨機探索
E11殘差塔深層特徵提取多級處理層層抽象
E12訓練課程從簡單到困難課程學習漸進難度
E13MuZero學習環境模型世界模型不需規則

F 系列:縮放

模型大小、計算資源與性能的關係。

編號標題圍棋概念物理/數學對應直覺解釋
F1複雜度縮放N×N 棋盤的分支因子狀態空間爆炸棋盤越大越難
F2複雜度理論狀態空間大小複雜度理論問題難度分類
F3有限尺寸效應小棋盤 vs 大棋盤有限尺寸縮放邊界影響
F4連續極限棋盤無限大時場論連續極限趨向連續
F5計算資源縮放更多算力 → 更強棋力縮放定律投入與產出
F6神經縮放律更大模型 → 更強尺度不變性模型大小效應
F7訓練時間縮放更長訓練的效益漸近分析收益遞減
F8湧現能力規模增大→棋力質變相變/臨界現象突然變強

G 系列:維度

高維空間中的表示與操作。

編號標題圍棋概念物理/數學對應直覺解釋
G1高維表示棋局 embedding 向量高維向量空間數值化表示
G2維度詛咒高維中相似局面難找距離集中現象高維稀疏
G3降維可視化embedding 投影t-SNE / PCA看到結構
G4相似局面搜索找歷史相似棋局向量資料庫快速檢索
G5流形假設有效狀態在低維流形低維流形內在維度低
G6稀疏表示大部分特徵為零稀疏編碼高效表示

H 系列:強化學習

從獎勵信號學習最優策略。

編號標題圍棋概念物理/數學對應直覺解釋
H1MDP 狀態轉移棋局狀態與落子馬可夫鏈狀態轉移
H2獎勵信號勝/負/和目標函數學習目標
H3折扣因子未來勝負權重 γⁿ時間折現遠近權衡
H4策略梯度Policy 訓練策略梯度法直接優化策略
H5經驗回放對弈記錄重用經驗緩衝區數據再利用
H6熵正則化鼓勵探索熵正則項避免過早收斂
H7TD 學習時序差分更新增量估計逐步修正
H8優勢函數相對於平均的好壞相對價值好多少
H9Actor-Critic策略+價值同時學階層控制雙重學習

I 系列:博弈論

多人決策的數學理論。

編號標題圍棋概念物理/數學對應直覺解釋
I1零和博弈一方贏 = 另一方輸守恆律利益守恆
I2納許均衡最優策略對策略不動點穩定狀態
I3混合策略隨機選擇落子隨機化策略不可預測
I4完美資訊雙方都看得到棋盤完全資訊博弈無隱藏
I5遺憾最小化減少事後懊悔Regret Minimization學習後悔
I6自博弈收斂對弈雙方趨於穩定演化穩定策略長期平衡

J 系列:資訊理論

資訊的量化與傳遞。

編號標題圍棋概念物理/數學對應直覺解釋
J1策略熵落子分布的不確定性夏農熵隨機程度
J2KL 散度新舊策略的差異相對熵分布距離
J3互資訊局面特徵與勝負的關聯互資訊共享資訊
J4資訊增益一步棋帶來的資訊量資訊增益學到多少
J5資訊瓶頸壓縮且保留關鍵資訊Information Bottleneck去蕪存菁
J6最小描述長度最簡模型選擇MDL 原理簡單即美

K 系列:優化方法

如何有效訓練神經網路。

編號標題圍棋概念物理/數學對應直覺解釋
K1Adam 優化器自適應學習率自適應步長智能調整
K2學習率調度訓練過程調整 lr模擬退火動態調整
K3權重衰減weight decay耗散力防止過大
K4梯度裁剪防止梯度爆炸速度限制安全閥
K5二階優化利用曲率資訊Hessian/曲率更聰明的步伐
K6隨機梯度噪聲SGD 的隨機性梯度噪聲注入有益的雜訊

L 系列:泛化與穩定

如何讓模型在未見過的局面也表現良好。

編號標題圍棋概念物理/數學對應直覺解釋
L1過擬合記住訓練局面過度適應背答案
L2正則化限制模型複雜度拉格朗日乘數加約束
L3Dropout隨機丟棄神經元隨機遮蔽增強魯棒性
L4早停適時停止訓練最優停止問題見好就收
L5模型集成多模型投票統計平均集體智慧

延伸閱讀