AlphaGo 嘅誕生

2016 年 3 月，當 AlphaGo 以 4:1 擊敗李世乭嗰陣，全世界都喺度問：呢個改變人工智能歷史嘅程式，究竟係點樣誕生嘅？

答案要從一位西洋棋神童嘅夢想講起。

DeepMind 嘅創立

Demis Hassabis：從神童到 AI 先驅

Demis Hassabis 係 DeepMind 嘅共同創辦人兼行政總裁。佢嘅人生經歷，幾乎就係為創造 AlphaGo 而準備嘅。

西洋棋神童

1975 年出生於倫敦嘅 Hassabis，喺 4 歲嗰陣學識下西洋棋，13 歲嗰陣達到西洋棋大師等級（Elo 2300+），係英國史上第二年輕達到呢個水平嘅棋手。

呢段經歷令佢深刻理解：

棋類遊戲係智能嘅試金石：下棋需要規劃、直覺、模式識別
人類智能嘅本質：棋手點樣喺龐大嘅可能性中搵到好棋？
電腦嘅局限：1997 年深藍擊敗卡斯帕洛夫靠嘅係暴力搜索，而唔係真正嘅「理解」

遊戲設計師

17 歲嗰陣，Hassabis 加入 Bullfrog Productions（由《上帝也瘋狂》創作者 Peter Molyneux 創立嘅遊戲公司），參與開發咗經典遊戲《乾坤大挪移》（Theme Park）。呢段經歷教識佢：

點樣設計複雜系統：遊戲係模擬現實世界嘅簡化模型
玩家行為預測：AI 需要理解人類嘅決策過程

認知神經科學家

喺劍橋大學取得電腦科學學位之後，Hassabis 喺倫敦大學學院（UCL）取得認知神經科學博士學位。佢嘅研究主題係：海馬迴點樣令人類進行想像與規劃。

呢項研究發現：

人類嘅記憶與想像使用相同嘅腦區
我哋透過「心理時間旅行」嚟規劃未來
呢種能力可能係智能嘅核心

呢啲洞見直接影響咗後來 AlphaGo 嘅設計——令 AI 能夠「想像」未來嘅走法，並從中學習。

共同創辦人

2010 年，Hassabis 與兩位夥伴共同創立 DeepMind：

創辦人	背景	貢獻
Demis Hassabis	神經科學、遊戲設計	願景與策略
Shane Legg	機器學習博士	AGI 理論基礎
Mustafa Suleyman	社會企業家	商業與應用

「解決智能，用智能解決一切」

DeepMind 嘅使命宣言係：

"Solve intelligence, and then use that to solve everything else."

「解決智能，然後用佢嚟解決所有其他問題。」

呢個唔係一間普通嘅 AI 公司。佢哋嘅目標唔係做產品，而係創造通用人工智能（AGI）——一種能夠好似人類咁思考、學習、解決任何問題嘅 AI。

點解要先「解決智能」？因為一旦我哋有咗 AGI，佢就可以幫助我哋解決氣候變化、疾病、能源等人類最大嘅挑戰。

早期突破：Atari 遊戲

喺挑戰圍棋之前，DeepMind 首先證明咗自己嘅能力——用 AI 玩 Atari 遊戲。

DQN：學識玩遊戲嘅 AI

2013 年，DeepMind 發表咗 DQN（Deep Q-Network） 演算法。呢個 AI 能夠：

淨係睇熒幕像素——唔畀佢任何遊戲規則
自己學識玩遊戲——透過嘗試錯誤
達到人類水平——甚至喺某啲遊戲超越人類

DQN 喺《打磚塊》（Breakout）中學識咗一個人類需要幾個鐘頭先發現到嘅策略：挖隧道令波跑到磚塊後面，一次過消除一大片。

呢個證明咗深度學習 + 強化學習嘅組合，能夠發現人類未曾諗過嘅策略。

點解從遊戲開始？

Hassabis 揀遊戲作為研究平台，有幾個原因：

環境可控：遊戲有明確嘅規則同目標
可測量進步：有客觀嘅分數嚟評估 AI 能力
人類基準：可以同人類玩家比較
多樣性：唔同遊戲測試唔同能力

呢套方法論，後來都用喺圍棋上面。

Google 嘅收購

5 億美元嘅賭注

2014 年 1 月，Google 以大約 5 億美元收購 DeepMind。呢個係當時 AI 領域最大嘅收購案之一。

點解 Google 願意畀咁多錢買一間得 75 人、仲未有產品嘅公司？

答案喺於 博弈論：

Facebook 都喺度競標：傳聞 Facebook 出價 4 億美元
AI 係未來嘅關鍵技術：邊個先掌握 AI，邊個就掌握未來
DeepMind 係最好嘅團隊：佢哋證明咗深度強化學習嘅可行性

Google 行政總裁 Larry Page 親自出面，先說服到 Hassabis 揀 Google 而唔係 Facebook。

收購條件

Hassabis 喺談判中爭取到幾個關鍵條件：

獨立運營：DeepMind 保持倫敦總部，獨立研發
學術自由：可以發表論文，而唔係全部保密
倫理委員會：成立 AI 倫理審查機制
長期研究：唔需要短期商業化壓力

呢啲條件令 DeepMind 能夠追求長期、高風險嘅研究——例如用 AI 征服圍棋。

Google 嘅 AI 戰略

收購 DeepMind 係 Google 「AI 優先」戰略嘅一部分：

時間	事件
2011	成立 Google Brain
2013	收購 DNNresearch（Hinton 團隊）
2014	收購 DeepMind
2015	TensorFlow 開源
2016	TPU 發表

Google 意識到：搜尋、廣告、翻譯、語音——所有核心業務都會被 AI 重塑。邊個有最好嘅 AI，邊個就係贏家。

揀圍棋作為目標

點解係圍棋？

被 Google 收購之後，DeepMind 有咗更多資源。Hassabis 決定挑戰一個睇落唔可能嘅目標：用 AI 擊敗人類圍棋冠軍。

點解揀圍棋，而唔係其他問題？

1. 圍棋係「AI 嘅聖杯」

2016 年之前，專家普遍認為 AI 起碼需要 10-20 年先可以喺圍棋上擊敗人類。圍棋被稱為「AI 最後嘅堡壘」。

原因：

搜索空間巨大：10^170 種可能嘅局面（宇宙原子數只有 10^80）
評估困難：唔似西洋棋有明確嘅棋子價值
直覺依賴：頂尖棋手成日話「呢步棋感覺啱」，但係解釋唔到原因

2. 深藍嘅啟示

1997 年，IBM 嘅深藍（Deep Blue）擊敗咗西洋棋世界冠軍卡斯帕洛夫。但係呢個勝利有爭議：

深藍靠嘅係暴力搜索（每秒評估 2 億個位置）
使用人類專家設計嘅評估函數
呢個唔係真正嘅「智能」，而係「計算力」

Hassabis 想證明：AI 可以用學習而唔係暴力搜索嚟解決問題。

3. 可測量嘅目標

圍棋有國際排名系統（Elo rating）同職業棋手，提供咗客觀嘅衡量標準。如果 AI 能夠擊敗世界冠軍，就係無可爭辯嘅成功。

4. 與神經科學嘅連結

人類棋手嘅直覺——望一眼棋盤就知道邊啲位置重要——正正係 Hassabis 想用 AI 複製嘅能力。圍棋係測試「機器直覺」嘅完美場景。

AlphaGo 團隊

核心人物

AlphaGo 嘅成功，來自一支多學科背景嘅團隊：

David Silver：首席研究員

David Silver 係 AlphaGo 論文嘅第一作者，都係強化學習領域嘅頂尖專家。

背景：劍橋大學數學系畢業，阿爾伯塔大學 RL 博士
導師：Richard Sutton（強化學習教父）
專長：蒙地卡羅樹搜索、時序差分學習

Silver 喺博士論文中就研究過電腦圍棋，但當時嘅技術遠未成熟。加入 DeepMind 之後，佢終於有機會實現呢個夢想。

Aja Huang：圍棋專家

Aja Huang（黃士傑）係台灣人，業餘六段棋手，都係電腦圍棋領域嘅先驅。

背景：國立台灣師範大學資工博士
專長：電腦圍棋程式設計
著名作品：Erica（早期電腦圍棋程式）

Huang 喺 AlphaGo 團隊中扮演關鍵角色：佢唔單止理解圍棋，都理解 AI。喺同李世乭嘅對局中，佢係實際操作 AlphaGo 嘅人。

其他關鍵成員

成員	角色
Chris J. Maddison	蒙地卡羅樹搜索專家
Arthur Guez	強化學習研究員
Laurent Sifre	深度學習工程師
George van den Driessche	分散式系統工程師

跨領域合作

AlphaGo 嘅成功證明咗跨領域合作嘅力量：

圍棋專家提供領域知識
機器學習研究員設計演算法
工程師實現大規模訓練系統
神經科學家提供理論靈感

呢種團隊組成，後來成為 DeepMind 嘅標準模式。

Nature 論文發表

秘密嘅驚喜

2016 年 1 月 27 日，DeepMind 喺頂級學術期刊《Nature》發表論文：

"Mastering the game of Go with deep neural networks and tree search"

論文宣布 AlphaGo 已經：

擊敗咗所有其他圍棋程式
以 5:0 擊敗咗歐洲冠軍樊麾（職業二段）

呢個消息震驚咗世界。喺論文發表之前，無人知道 DeepMind 喺度研究圍棋。

論文嘅核心貢獻

《Nature》論文描述咗 AlphaGo 嘅三大創新：

1. Policy Network（策略網絡）

用深度卷積神經網絡預測人類棋手嘅下一步。訓練資料來自 3000 萬局 嘅人類棋譜。

準確率：57%（預測人類專家嘅下一步）

呢個比之前最好嘅電腦圍棋程式高出 10 個百分點以上。

2. Value Network（價值網絡）

用另一個神經網絡評估當前局面嘅勝率。呢個取代咗傳統嘅隨機模擬（Monte Carlo rollout）。

精度：與 15000 次隨機模擬相當，但計算速度快 15000 倍

3. 蒙地卡羅樹搜索整合

將兩個神經網絡整合入 MCTS 框架：

Policy Network 引導搜索方向
Value Network 評估葉節點

呢個令 AlphaGo 既有「直覺」（神經網絡），又有「推理」（樹搜索）。

學術界嘅反應

論文發表之後，學術界反應熱烈：

「呢個係人工智能嘅登月時刻。」 — Stuart Russell，UC Berkeley 教授，AI 教科書作者

「我原本以為仲要 10 年，估唔到咁快。」 — Martin Müller，電腦圍棋專家

但都有人持懷疑態度：

「樊麾只係職業二段，唔係真正嘅頂尖棋手。等 AlphaGo 同 Lee Sedol 落一場先算啦。」

DeepMind 接受咗呢個挑戰。

挑戰李世乭

點解係李世乭？

李世乭（Lee Sedol）係韓國棋手，當時被認為係過去十年最強嘅棋手之一：

指標	數據
世界冠軍頭銜	18 個
國際賽冠軍	32 個
最高世界排名	第 1
風格	「天才」「神算」

揀李世乭，DeepMind 係喺度挑戰最強嘅人類對手。

1 百萬美元獎金

Google 為呢場比賽提供咗 100 萬美元 獎金：

如果李世乭贏：獎金歸李世乭
如果 AlphaGo 贏：獎金捐畀 UNICEF、STEM 教育等慈善機構

呢個唔單止係一場技術展示，都係全球矚目嘅體育賽事。

比賽前嘅預測

比賽前，大部分職業棋手預測李世乭會輕鬆獲勝：

「AlphaGo 可能贏一盤，但 5 盤比賽我會 5:0 獲勝。」 — 李世乭，賽前訪談

「電腦下棋死板，頂尖棋手好容易搵到弱點。」 — 某位職業九段

但 DeepMind 團隊有唔同嘅睇法。David Silver 後來透露：

「我哋喺內部測試中，已經令 AlphaGo 對陣樊麾嗰個版本落咗 500 盤。新版本贏咗 499 盤。」

2016 年 3 月：改變世界嘅五盤棋

第一盤：震驚開始

2016 年 3 月 9 日，首爾四季酒店。

李世乭執黑先行，AlphaGo 執白。經過 3 小時 28 分嘅對弈，AlphaGo 中盤勝出。

呢個係人類頂尖棋手首次正式輸畀 AI。

第二盤：神之一手

第二盤誕生咗被稱為「神之一手」嘅第 37 手——AlphaGo 喺五路落咗一步肩衝，所有職業棋手都以為係失誤，結果證明係致勝關鍵。

（詳見下一篇：「神之一手」深度分析）

AlphaGo 再次獲勝。

第三盤：3:0

第三盤，李世乭嘗試咗非傳統嘅開局，但 AlphaGo 應對自如。3:0。

全世界開始意識到：呢個唔係偶然，AI 真係超越咗人類。

第四盤：人類嘅反擊

第四盤，李世乭落出咗被稱為「神之一手」嘅第 78 手——一步精妙嘅挖，令 AlphaGo 出現咗混亂。

AlphaGo 喺之後嘅幾步中落出明顯嘅壞棋，最終認輸。

呢場勝利證明：AI 都有弱點。李世乭搵到咗佢。

第五盤：最終比數

第五盤，AlphaGo 恢復正常，以中盤勝結束比賽。

最終比數：AlphaGo 4:1 李世乭

影響與餘波

全球關注

呢場比賽嘅影響遠超圍棋界：

全球 2 億人 睇咗直播
《紐約時報》、《經濟學人》等主流媒體大篇幅報導
Google 股價喺比賽期間上升
「人工智能」成為當年最熱門嘅科技話題

對圍棋界嘅影響

比賽之後，職業棋手嘅態度從「輕視」轉為「敬畏」：

「我哋以前以為人類理解圍棋，而家發現我哋只係識少少皮毛。」 — 柯潔，中國棋手，當時世界排名第一

好多職業棋手開始用 AI 嚟訓練，圍棋嘅下法都因此改變。

對 AI 領域嘅影響

AlphaGo 證明咗幾件事：

深度學習可以解決專家級問題：唔單止識別貓狗，仲可以落圍棋
強化學習可以超越人類：透過自我對弈，AI 可以發現人類未知嘅策略
神經網絡 + 搜索係強大嘅組合：直覺 + 推理 = 更強嘅智能

呢啲洞見後來被應用到：

AlphaFold：蛋白質結構預測（2020 諾貝爾獎級成就）
AlphaZero：通用遊戲 AI
MuZero：唔需要規則嘅學習

動畫對應

本文涉及嘅核心概念與動畫編號：

編號	概念	物理/數學對應
E7	從零開始	自組織
E5	自我對弈	不動點收斂
F8	湧現能力	相變
H4	策略梯度	隨機優化

參考資料

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
《AlphaGo》紀錄片 (2017)，導演 Greg Kohs。

DeepMind 嘅創立​

Demis Hassabis：從神童到 AI 先驅​

西洋棋神童​

遊戲設計師​

認知神經科學家​

共同創辦人​

「解決智能，用智能解決一切」​

早期突破：Atari 遊戲​

DQN：學識玩遊戲嘅 AI​

點解從遊戲開始？​

Google 嘅收購​

5 億美元嘅賭注​

收購條件​

Google 嘅 AI 戰略​

揀圍棋作為目標​

點解係圍棋？​

1. 圍棋係「AI 嘅聖杯」​

2. 深藍嘅啟示​

3. 可測量嘅目標​

4. 與神經科學嘅連結​

AlphaGo 團隊​

核心人物​

David Silver：首席研究員​

Aja Huang：圍棋專家​

其他關鍵成員​

跨領域合作​

Nature 論文發表​

秘密嘅驚喜​

論文嘅核心貢獻​

1. Policy Network（策略網絡）​

2. Value Network（價值網絡）​

3. 蒙地卡羅樹搜索整合​

學術界嘅反應​

挑戰李世乭​

點解係李世乭？​

1 百萬美元獎金​

比賽前嘅預測​

2016 年 3 月：改變世界嘅五盤棋​

第一盤：震驚開始​

第二盤：神之一手​

第三盤：3:0​

第四盤：人類嘅反擊​

第五盤：最終比數​

影響與餘波​

全球關注​

對圍棋界嘅影響​

對 AI 領域嘅影響​

動畫對應​

延伸閱讀​

參考資料​