AlphaGo Zero 概述

2017 年 10 月，DeepMind 發表咗一個震驚 AI 界嘅成果：AlphaGo Zero 喺無使用任何人類棋譜嘅情況下，由完全隨機嘅狀態開始訓練，淨係三日就超越咗擊敗李世乭嘅原版 AlphaGo，並以 100:0 嘅比數完勝。

呢個唔淨止係數字上嘅進步。呢個代表一個全新嘅範式：AI 唔需要人類知識，可以由零發現一切。

點解唔需要人類棋譜？

人類棋譜嘅限制

原版 AlphaGo 嘅訓練過程分為兩個階段：

監督學習：用 3000 萬局人類棋譜訓練 Policy Network
強化學習：透過自我對弈進一步提升

呢個方法有幾個根本性嘅問題：

1. 人類棋譜有上限

人類棋手嘅棋力有極限，棋譜入面包含嘅係人類嘅理解，都包含人類嘅錯誤同偏見。當 AI 由人類棋譜學習嗰陣，佢學到嘅係：

人類認為好嘅著法（但唔一定係最優嘅）
人類嘅思維模式（但可能限制創新）
人類嘅錯誤（會被當作正確嘅樣本學習）

2. 監督學習嘅瓶頸

監督學習嘅目標係「模仿人類」——預測人類棋手會落邊一步。呢個意味住 AI 嘅能力上限被人類棋手嘅能力所限制。

就好似一個學徒只能模仿師傅，永遠無法超越師傅一樣。

3. 資料收集成本

高質素嘅人類棋譜需要多年累積，而且只存在於圍棋呢類有悠久歷史嘅遊戲入面。如果要將 AI 應用到新領域（好似蛋白質結構預測），根本無「人類專家棋譜」可用。

Zero 嘅突破

AlphaGo Zero 完全跳過監督學習階段，直接由隨機初始化開始自我對弈。呢個解決咗上述所有問題：

問題	原版 AlphaGo	AlphaGo Zero
人類知識上限	受限於棋譜質素	無此限制
學習目標	模仿人類	最大化勝率
資料需求	3000 萬局棋譜	0
可推廣性	只限圍棋	可推廣至其他領域

呢個係一個根本性嘅範式轉變：由「學習人類知識」轉向「由第一性原理發現知識」。

與原版 AlphaGo 嘅對比：100:0

碾壓性嘅勝利

DeepMind 令訓練完成嘅 AlphaGo Zero 與各個版本嘅 AlphaGo 對弈：

對手	AlphaGo Zero 戰績
AlphaGo Fan（擊敗樊麾版本）	100:0
AlphaGo Lee（擊敗李世乭版本）	100:0
AlphaGo Master（60 連勝版本）	89:11

100:0——呢個意味住喺 100 盤比賽入面，原版 AlphaGo 連一盤都贏唔到。

更少嘅資源，更強嘅棋力

唔淨止係贏，AlphaGo Zero 仲用更少嘅資源達成更強嘅棋力：

指標	AlphaGo Lee	AlphaGo Zero
訓練時間	數個月	40 日（3 日超越 AlphaGo Lee）
訓練局數	3000 萬人類棋譜 + 自我對弈	490 萬局自我對弈
TPU 數量（訓練）	50+	4
TPU 數量（推理）	48	4
輸入特徵	48 個平面	17 個平面
神經網絡	SL + RL 雙網絡	單一雙頭網絡

呢個係一個驚人嘅效率提升：資源減少 10 倍以上，棋力卻大幅提升。

點解 Zero 更強？

AlphaGo Zero 更強嘅原因可以由幾個角度理解：

1. 無偏見嘅學習

原版 AlphaGo 由人類棋譜學習，繼承咗人類嘅偏見。例如，人類棋手可能過度重視某啲定式，或者對某啲局面有錯誤嘅評估。

AlphaGo Zero 無呢啲包袱。佢由白紙開始，只透過勝負結果嚟學習乜嘢係好棋。呢個令佢能夠發現人類從未諗過嘅著法。

2. 一致嘅學習目標

原版 AlphaGo 嘅訓練有兩個唔同嘅目標：

監督學習：最大化對人類落子嘅預測準確率
強化學習：最大化勝率

呢兩個目標可能互相衝突。AlphaGo Zero 只有一個目標：勝率最大化。呢個令學習過程更加一致同有效。

3. 更簡潔嘅架構

原版 AlphaGo 使用分離嘅 Policy Network 同 Value Network。AlphaGo Zero 使用單一嘅雙頭網絡（詳見下一篇），令特徵表示能夠被共享，提高咗學習效率。

簡化嘅輸入特徵：由 48 到 17

原版 AlphaGo 嘅 48 個特徵平面

原版 AlphaGo 嘅神經網絡輸入包含 48 個 19x19 嘅特徵平面，編碼咗大量人類設計嘅特徵：

類別	特徵數	內容
棋子位置	3	黑子、白子、空點
氣數	8	1-8 氣嘅棋串
提子	8	能提 1-8 粒子
打劫	1	劫爭位置
邊線距離	4	一線到四線
落子合法性	1	邊啲位置可以落
歷史狀態	8	過去 8 手嘅位置
輪次	1	黑方或白方
其他	14	征子、眼位等

呢 48 個特徵係圍棋專家精心設計嘅，包含咗大量領域知識。

AlphaGo Zero 嘅 17 個特徵平面

AlphaGo Zero 大幅簡化咗輸入，只使用 17 個特徵平面：

平面編號	內容	數量
1-8	黑子位置（最近 8 步）	8
9-16	白子位置（最近 8 步）	8
17	當前輪次（全 1 或全 0）	1

呢 17 個特徵只包含：

當前棋盤狀態：每個位置有黑子、白子或空
歷史資訊：過去 8 步嘅棋盤狀態
輪次資訊：輪到邊個落

無氣數、無征子判斷、無邊線距離——所有呢啲「圍棋知識」都畀神經網絡自己學習。

點解簡化係好嘅？

1. 令網絡自己發現特徵

複雜嘅手工特徵可能遺漏重要資訊，或者編碼錯誤嘅假設。令神經網絡由原始資料學習，佢可能發現更好嘅特徵表示。

事實證明，AlphaGo Zero 學識咗人類設計嘅所有特徵（氣數、征子等），仲學到咗一啲人類無明確意識到嘅模式。

2. 更好嘅可推廣性

48 個特徵入面嘅好多係圍棋專用嘅（好似征子、邊線距離）。17 個簡化特徵則係通用嘅——任何棋盤遊戲都可以用類似嘅方式編碼。

呢個為後嚟嘅 AlphaZero（通用遊戲 AI）奠定咗基礎。

3. 減少人為錯誤

手工設計嘅特徵可能包含錯誤或者唔完整嘅定義。簡化輸入消除咗呢類問題嘅可能性。

單一網絡架構

原版嘅雙網絡設計

原版 AlphaGo 使用兩個獨立嘅神經網絡：

Policy Network:  輸入 → CNN → 19x19 落子機率
Value Network:   輸入 → CNN → 勝率評估（-1 到 1）

呢兩個網絡：

有唔同嘅架構（層數、通道數略有唔同）
獨立訓練（先訓練 Policy，再訓練 Value）
唔共享任何參數

Zero 嘅雙頭網絡

AlphaGo Zero 使用單一網絡，但有兩個輸出頭（heads）：

輸入 → ResNet 共享主幹 → Policy Head → 19x19 落子機率
                       → Value Head  → 勝率評估

兩個 Head 共享同一個 ResNet 主幹（詳見下一篇：雙頭網絡與殘差網絡），呢個帶嚟幾個好處：

1. 參數效率

共享主幹意味住大部分參數被兩個任務共用。呢個減少咗總參數量，降低咗過擬合風險。

2. 特徵共享

「應該落邊度」（Policy）同「邊個會贏」（Value）需要理解類似嘅棋盤模式。共享主幹令呢啲特徵能被兩個任務同時學習同利用。

3. 訓練穩定性

聯合訓練令梯度訊號嚟自兩個來源，提供咗更豐富嘅監督訊號，令訓練更加穩定。

殘差網絡嘅威力

AlphaGo Zero 嘅主幹使用 40 層殘差網絡（ResNet），比原版 AlphaGo 嘅 13 層 CNN 深得多。

殘差連接（skip connections）令深層網絡得以有效訓練，避免咗梯度消失問題。呢個係 2015 年 ImageNet 競賽嘅突破性技術，被 AlphaGo Zero 成功應用到圍棋領域。

訓練效率嘅提升

自我對弈嘅指數增長

AlphaGo Zero 嘅訓練過程展示咗令人驚嘆嘅效率：

訓練時間	ELO 評分	相當於
0 小時	0	隨機亂落
3 小時	~1000	發現基本規則
12 小時	~3000	發現定式
36 小時	~4500	超越樊麾版
60 小時	~5200	超越李世乭版
72 小時	~5400	超越原版 AlphaGo
40 日	~5600	最強版本

三日超越人類、三日超越之前花費數個月訓練嘅 AI——呢個係指數級嘅效率提升。

點解咁快？

1. 更強嘅搜索引導

AlphaGo Zero 嘅 MCTS 完全由神經網絡引導，唔再使用快速走子策略（rollout）。呢個令搜索更加高效同準確。

2. 更快嘅自我對弈

由於只需要一個網絡（而唔係兩個），每局自我對弈嘅計算成本降低。呢個意味住喺相同時間內可以產生更多訓練資料。

3. 更有效嘅學習

雙頭網絡嘅聯合訓練令每一局棋嘅資訊被更有效噉利用。Policy 同 Value 嘅梯度相互強化，加速咗收斂。

與人類學習嘅對比

人類棋手需要幾耐時間達到唔同水平？

水平	人類所需時間	AlphaGo Zero
入門	數週	幾分鐘
業餘初段	數年	數小時
職業水平	10-20 年	1-2 日
世界冠軍	20+ 年全職投入	3 日
超越人類	唔可能	3 日

呢個對比唔係要貶低人類棋手——佢哋用嘅係生物神經元，而 AlphaGo Zero 用嘅係專門設計嘅 TPU 同幾千瓦嘅電力。但佢確實展示咗正確嘅學習方法可以幾咁高效。

通用性：國際象棋、將棋

AlphaZero 嘅誕生

2017 年 12 月，DeepMind 發表咗 AlphaZero——AlphaGo Zero 嘅通用版本。同一套演算法，只需修改遊戲規則，就能喺三種棋類遊戲入面達到世界頂級水平：

遊戲	訓練時間	對手	戰績
圍棋	8 小時	AlphaGo Zero	60:40
國際象棋	4 小時	Stockfish 8	28 勝 72 和 0 負
將棋	2 小時	Elmo	90:8:2

留意呢度嘅對手：

Stockfish 係當時最強嘅國際象棋引擎，使用幾十年人類知識同優化
Elmo 係當時最強嘅將棋 AI

AlphaZero 用幾小時訓練，就超越咗呢啲耗費多年開發嘅專用系統。

通用性嘅意義

AlphaGo Zero / AlphaZero 證明咗一件重要嘅事：

同一套學習演算法，可以喺唔同領域達到超人水平。

呢個唔係三個唔同嘅 AI，而係一個通用嘅學習框架：

自我對弈產生經驗
蒙地卡羅樹搜索探索可能性
神經網絡學習策略同價值函數
強化學習優化目標函數

呢個框架唔依賴領域特定嘅知識，呢個為 AI 嘅通用化邁出咗重要一步。

對傳統 AI 嘅衝擊

喺 AlphaZero 之前，國際象棋同將棋嘅最強 AI 都係「專家系統」風格嘅：

大量人類知識：開局庫、殘局庫、評估函數
數十年優化：無數棋手同工程師嘅心血
極度專業化：Stockfish 唔識落圍棋，Elmo 唔識落國際象棋

AlphaZero 用一個通用演算法喺幾小時內超越咗呢一切。呢個令好多 AI 研究者重新思考：

我哋應該投入更多精力喺「通用學習演算法」，定係「專家知識編碼」？

答案似乎越嚟越清楚：令機器自己學習，比教佢知識更有效。

AlphaGo Zero 嘅落棋風格

超越人類嘅審美

圍棋界對 AlphaGo Zero 嘅著法有一個普遍評價：更加優美。

AlphaGo Lee 嘅著法有時顯得「怪異」——好似第 37 手嗰類落子，人類需要事後分析先能理解佢嘅妙處。但 AlphaGo Zero 嘅著法常常喺事後被評價為「一眼就知道係好棋」。

呢個可能係因為：

更強嘅棋力：Zero 能睇得更深，落子更加從容
無人類偏見：唔受傳統定式嘅束縛
一致嘅目標：只追求勝率，唔模仿人類

重新發現人類棋理

有趣嘅係，AlphaGo Zero 喺訓練過程入面「重新發現」咗人類數千年累積嘅圍棋知識：

定式：Zero 自己發現咗好多常見定式，因為呢啲確實係雙方最優解
佈局原則：角、邊、中央嘅重要性順序
棋形知識：愚形同好形嘅區別

呢個驗證咗人類棋理嘅合理性——呢啲知識唔係偶然嘅，而係圍棋本質嘅反映。

超越人類嘅創新

但 Zero 都發現咗人類從未諗過嘅著法：

非常規開局：喺傳統開局基礎上嘅變化
激進嘅棄子：比人類更願意放棄局部換取全局優勢
反直覺嘅形狀：表面上嘅「壞形」其實係最優解

呢啲創新正喺改變人類對圍棋嘅理解。好多職業棋手表示，研究 AlphaGo Zero 嘅棋譜令佢哋對圍棋有咗全新嘅認識。

技術細節總結

與原版 AlphaGo 嘅完整對比

方面	AlphaGo（原版）	AlphaGo Zero
訓練資料	人類棋譜 + 自我對弈	純自我對弈
學習方法	監督學習 + 強化學習	純強化學習
輸入特徵	48 個平面	17 個平面
網絡架構	分離嘅 Policy/Value	雙頭 ResNet
網絡深度	13 層	40 層（或更多）
MCTS 評估	神經網絡 + Rollout	純神經網絡
搜索次數	每步 ~100,000	每步 ~1,600
訓練 TPU	50+	4
推理 TPU	48	4（可擴展）

核心算法

AlphaGo Zero 嘅訓練循環非常簡潔：

1. 自我對弈
   - 用當前網絡進行 MCTS
   - 按 MCTS 搜索機率揀選落子
   - 記錄每一步嘅 (局面, MCTS機率, 勝負結果)

2. 訓練網絡
   - 由經驗池入面取樣
   - Policy Head：最小化與 MCTS 機率嘅交叉熵
   - Value Head：最小化與實際勝負嘅均方誤差
   - 聯合優化兩個目標

3. 更新網絡
   - 用新網絡替換舊網絡（通過對弈驗證新網絡更強）
   - 返回步驟 1

呢個循環持續運行，網絡不斷變強。無人類數據、無人類知識，只有遊戲規則同勝負目標。

對 AI 研究嘅啟示

第一性原理學習

AlphaGo Zero 展示咗一種「第一性原理」嘅學習方法：

唔好話 AI 點樣做，只話佢目標係乜嘢，令佢自己發現方法。

呢個同傳統嘅專家系統方法形成鮮明對比。專家系統嘗試將人類知識編碼落 AI，而 AlphaGo Zero 令 AI 自己發現知識。

結果係：AI 發現嘅知識可能比人類知識更完整、更準確。

自我對弈嘅威力

AlphaGo Zero 證明咗自我對弈可以產生無限嘅訓練資料，而且呢啲資料嘅質素會隨住網絡嘅提升而提升。

呢個係一個「正向循環」：

更強嘅網絡 → 更好嘅自我對弈資料
更好嘅資料 → 更強嘅網絡

呢個循環可以持續運行，直到達到遊戲嘅理論上限（如果存在嘅話）。

簡化嘅重要性

AlphaGo Zero 嘅成功證明咗「簡化」嘅重要性：

簡化輸入（48 → 17）
簡化架構（雙網絡 → 單網絡）
簡化訓練（監督 + 強化 → 純強化）

每一次簡化都令系統更加強大。呢個話畀我哋知：複雜唔等於好，最簡單嘅解決方案往往係最好嘅。

動畫對應

本文涉及嘅核心概念與動畫編號：

編號	概念	物理/數學對應
🎬 E7	由零開始訓練	自組織現象
🎬 E5	自我對弈	不動點收斂
🎬 E12	棋力成長曲線	S 型增長
🎬 D12	殘差網絡	梯度高速公路

參考資料

Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.

點解唔需要人類棋譜？​

人類棋譜嘅限制​

1. 人類棋譜有上限​

2. 監督學習嘅瓶頸​

3. 資料收集成本​

Zero 嘅突破​

與原版 AlphaGo 嘅對比：100:0​

碾壓性嘅勝利​

更少嘅資源，更強嘅棋力​

點解 Zero 更強？​

1. 無偏見嘅學習​

2. 一致嘅學習目標​

3. 更簡潔嘅架構​

簡化嘅輸入特徵：由 48 到 17​

原版 AlphaGo 嘅 48 個特徵平面​

AlphaGo Zero 嘅 17 個特徵平面​

點解簡化係好嘅？​

1. 令網絡自己發現特徵​

2. 更好嘅可推廣性​

3. 減少人為錯誤​

單一網絡架構​

原版嘅雙網絡設計​

Zero 嘅雙頭網絡​

1. 參數效率​

2. 特徵共享​

3. 訓練穩定性​

殘差網絡嘅威力​

訓練效率嘅提升​

自我對弈嘅指數增長​

點解咁快？​

1. 更強嘅搜索引導​

2. 更快嘅自我對弈​

3. 更有效嘅學習​

與人類學習嘅對比​

通用性：國際象棋、將棋​

AlphaZero 嘅誕生​

通用性嘅意義​

對傳統 AI 嘅衝擊​

AlphaGo Zero 嘅落棋風格​

超越人類嘅審美​

重新發現人類棋理​

超越人類嘅創新​

技術細節總結​

與原版 AlphaGo 嘅完整對比​

核心算法​

對 AI 研究嘅啟示​

第一性原理學習​

自我對弈嘅威力​

簡化嘅重要性​

動畫對應​

延伸閱讀​

參考資料​