AlphaGo 的誕生

2016 年 3 月，當 AlphaGo 以 4:1 擊敗李世乭時，全世界都在問：這個改變人工智慧歷史的程式，究竟是怎麼誕生的？

答案要從一位西洋棋神童的夢想說起。

DeepMind 的創立

Demis Hassabis：從神童到 AI 先驅

Demis Hassabis 是 DeepMind 的共同創辦人兼執行長。他的人生經歷，幾乎就是為創造 AlphaGo 而準備的。

西洋棋神童

1975 年出生於倫敦的 Hassabis，在 4 歲時學會下西洋棋，13 歲時達到西洋棋大師等級（Elo 2300+），是英國史上第二年輕達到此水平的棋手。

這段經歷讓他深刻理解：

棋類遊戲是智能的試金石：下棋需要規劃、直覺、模式識別
人類智能的本質：棋手如何在龐大的可能性中找到好棋？
電腦的侷限：1997 年深藍擊敗卡斯帕洛夫靠的是暴力搜索，而非真正的「理解」

遊戲設計師

17 歲時，Hassabis 加入 Bullfrog Productions（由《上帝也瘋狂》創作者 Peter Molyneux 創立的遊戲公司），參與開發了經典遊戲《乾坤大挪移》（Theme Park）。這段經歷教會他：

如何設計複雜系統：遊戲是模擬現實世界的簡化模型
玩家行為預測：AI 需要理解人類的決策過程

認知神經科學家

在劍橋大學取得電腦科學學位後，Hassabis 在倫敦大學學院（UCL）取得認知神經科學博士學位。他的研究主題是：海馬迴如何讓人類進行想像與規劃。

這項研究發現：

人類的記憶與想像使用相同的腦區
我們透過「心理時間旅行」來規劃未來
這種能力可能是智能的核心

這些洞見直接影響了後來 AlphaGo 的設計——讓 AI 能夠「想像」未來的走法，並從中學習。

共同創辦人

2010 年，Hassabis 與兩位夥伴共同創立 DeepMind：

創辦人	背景	貢獻
Demis Hassabis	神經科學、遊戲設計	願景與策略
Shane Legg	機器學習博士	AGI 理論基礎
Mustafa Suleyman	社會企業家	商業與應用

「解決智能，用智能解決一切」

DeepMind 的使命宣言是：

"Solve intelligence, and then use that to solve everything else."

「解決智能，然後用它來解決所有其他問題。」

這不是一家普通的 AI 公司。他們的目標不是做產品，而是創造通用人工智慧（AGI）——一種能像人類一樣思考、學習、解決任何問題的 AI。

為什麼要先「解決智能」？因為一旦我們有了 AGI，它就能幫助我們解決氣候變遷、疾病、能源等人類最大的挑戰。

早期突破：Atari 遊戲

在挑戰圍棋之前，DeepMind 首先證明了自己的能力——用 AI 玩 Atari 遊戲。

DQN：學會玩遊戲的 AI

2013 年，DeepMind 發表了 DQN（Deep Q-Network） 演算法。這個 AI 能夠：

只看螢幕像素——不給它任何遊戲規則
自己學會玩遊戲——透過嘗試錯誤
達到人類水平——甚至在某些遊戲超越人類

DQN 在《打磚塊》（Breakout）中學會了一個人類需要幾個小時才能發現的策略：挖隧道讓球跑到磚塊後面，一次消除一大片。

這證明了深度學習 + 強化學習的組合，能夠發現人類未曾想過的策略。

為什麼從遊戲開始？

Hassabis 選擇遊戲作為研究平台，有幾個原因：

環境可控：遊戲有明確的規則和目標
可測量進步：有客觀的分數來評估 AI 能力
人類基準：可以與人類玩家比較
多樣性：不同遊戲測試不同能力

這套方法論，後來也用在圍棋上。

Google 的收購

5 億美元的賭注

2014 年 1 月，Google 以約 5 億美元收購 DeepMind。這是當時 AI 領域最大的收購案之一。

為什麼 Google 願意付這麼多錢買一家只有 75 人、還沒有產品的公司？

答案在於 賽局理論：

Facebook 也在競標：傳聞 Facebook 出價 4 億美元
AI 是未來的關鍵技術：誰先掌握 AI，誰就掌握未來
DeepMind 是最好的團隊：他們證明了深度強化學習的可行性

Google 執行長 Larry Page 親自出面，才說服 Hassabis 選擇 Google 而非 Facebook。

收購條件

Hassabis 在談判中爭取到幾個關鍵條件：

獨立運營：DeepMind 保持倫敦總部，獨立研發
學術自由：可以發表論文，而非全部保密
倫理委員會：成立 AI 倫理審查機制
長期研究：不需要短期商業化壓力

這些條件讓 DeepMind 能夠追求長期、高風險的研究——比如用 AI 征服圍棋。

Google 的 AI 戰略

收購 DeepMind 是 Google 「AI 優先」戰略的一部分：

時間	事件
2011	成立 Google Brain
2013	收購 DNNresearch（Hinton 團隊）
2014	收購 DeepMind
2015	TensorFlow 開源
2016	TPU 發表

Google 意識到：搜尋、廣告、翻譯、語音——所有核心業務都將被 AI 重塑。誰有最好的 AI，誰就是贏家。

選擇圍棋作為目標

為什麼是圍棋？

被 Google 收購後，DeepMind 有了更多資源。Hassabis 決定挑戰一個看似不可能的目標：用 AI 擊敗人類圍棋冠軍。

為什麼選擇圍棋，而不是其他問題？

1. 圍棋是「AI 的聖杯」

2016 年之前，專家普遍認為 AI 至少需要 10-20 年才能在圍棋上擊敗人類。圍棋被稱為「AI 最後的堡壘」。

原因：

搜索空間巨大：10^170 種可能的局面（宇宙原子數只有 10^80）
評估困難：不像西洋棋有明確的棋子價值
直覺依賴：頂尖棋手常說「這步棋感覺對」，卻無法解釋原因

2. 深藍的啟示

1997 年，IBM 的深藍（Deep Blue）擊敗了西洋棋世界冠軍卡斯帕洛夫。但這個勝利有爭議：

深藍靠的是暴力搜索（每秒評估 2 億個位置）
使用人類專家設計的評估函數
這不是真正的「智能」，而是「計算力」

Hassabis 想證明：AI 可以用學習而非暴力搜索來解決問題。

3. 可測量的目標

圍棋有國際排名系統（Elo rating）和職業棋手，提供了客觀的衡量標準。如果 AI 能擊敗世界冠軍，就是無可爭辯的成功。

4. 與神經科學的連結

人類棋手的直覺——看一眼棋盤就知道哪些位置重要——正是 Hassabis 想用 AI 複製的能力。圍棋是測試「機器直覺」的完美場景。

AlphaGo 團隊

核心人物

AlphaGo 的成功，來自一支多學科背景的團隊：

David Silver：首席研究員

David Silver 是 AlphaGo 論文的第一作者，也是強化學習領域的頂尖專家。

背景：劍橋大學數學系畢業，阿爾伯塔大學 RL 博士
導師：Richard Sutton（強化學習教父）
專長：蒙地卡羅樹搜索、時序差分學習

Silver 在博士論文中就研究過電腦圍棋，但當時的技術遠未成熟。加入 DeepMind 後，他終於有機會實現這個夢想。

Aja Huang：圍棋專家

Aja Huang（黃士傑）是台灣人，業餘六段棋手，也是電腦圍棋領域的先驅。

背景：國立台灣師範大學資工博士
專長：電腦圍棋程式設計
著名作品：Erica（早期電腦圍棋程式）

Huang 在 AlphaGo 團隊中扮演關鍵角色：他不只理解圍棋，也理解 AI。在與李世乭的對局中，他是實際操作 AlphaGo 的人。

其他關鍵成員

成員	角色
Chris J. Maddison	蒙地卡羅樹搜索專家
Arthur Guez	強化學習研究員
Laurent Sifre	深度學習工程師
George van den Driessche	分散式系統工程師

跨領域合作

AlphaGo 的成功證明了跨領域合作的力量：

圍棋專家提供領域知識
機器學習研究員設計演算法
工程師實現大規模訓練系統
神經科學家提供理論靈感

這種團隊組成，後來成為 DeepMind 的標準模式。

Nature 論文發表

秘密的驚喜

2016 年 1 月 27 日，DeepMind 在頂級學術期刊《Nature》發表論文：

"Mastering the game of Go with deep neural networks and tree search"

論文宣布 AlphaGo 已經：

擊敗了所有其他圍棋程式
以 5:0 擊敗了歐洲冠軍樊麾（職業二段）

這個消息震驚了世界。在論文發表之前，沒有人知道 DeepMind 在研究圍棋。

論文的核心貢獻

《Nature》論文描述了 AlphaGo 的三大創新：

1. Policy Network（策略網路）

用深度卷積神經網路預測人類棋手的下一步。訓練資料來自 3000 萬局 的人類棋譜。

準確率：57%（預測人類專家的下一步）

這比之前最好的電腦圍棋程式高出 10 個百分點以上。

2. Value Network（價值網路）

用另一個神經網路評估當前局面的勝率。這取代了傳統的隨機模擬（Monte Carlo rollout）。

精度：與 15000 次隨機模擬相當，但計算速度快 15000 倍

3. 蒙地卡羅樹搜索整合

將兩個神經網路整合進 MCTS 框架：

Policy Network 引導搜索方向
Value Network 評估葉節點

這讓 AlphaGo 既有「直覺」（神經網路），又有「推理」（樹搜索）。

學術界的反應

論文發表後，學術界反應熱烈：

"這是人工智慧的登月時刻。" — Stuart Russell，UC Berkeley 教授，AI 教科書作者

"我原本認為還要 10 年，沒想到這麼快。" — Martin Müller，電腦圍棋專家

但也有人持懷疑態度：

"樊麾只是職業二段，不是真正的頂尖棋手。讓 AlphaGo 和 Lee Sedol 下一場再說。"

DeepMind 接受了這個挑戰。

挑戰李世乭

為什麼是李世乭？

李世乭（Lee Sedol）是韓國棋手，當時被認為是過去十年最強的棋手之一：

指標	數據
世界冠軍頭銜	18 個
國際賽冠軍	32 個
最高世界排名	第 1
風格	「天才」「神算」

選擇李世乭，DeepMind 是在挑戰最強的人類對手。

1 百萬美元獎金

Google 為這場比賽提供了 100 萬美元 獎金：

如果李世乭獲勝：獎金歸李世乭
如果 AlphaGo 獲勝：獎金捐給 UNICEF、STEM 教育等慈善機構

這不只是一場技術展示，也是全球矚目的體育賽事。

比賽前的預測

比賽前，多數職業棋手預測李世乭會輕鬆獲勝：

"AlphaGo 可能贏一盤，但 5 盤比賽我會 5:0 獲勝。" — 李世乭，賽前訪談

"電腦下棋死板，頂尖棋手很容易找到弱點。" — 某位職業九段

但 DeepMind 團隊有不同的看法。David Silver 後來透露：

"我們在內部測試中，已經讓 AlphaGo 對陣樊麾的版本下了 500 盤。新版本贏了 499 盤。"

2016 年 3 月：改變世界的五盤棋

第一盤：震驚開始

2016 年 3 月 9 日，首爾四季酒店。

李世乭執黑先行，AlphaGo 執白。經過 3 小時 28 分的對弈，AlphaGo 中盤勝出。

這是人類頂尖棋手首次正式輸給 AI。

第二盤：神之一手

第二盤誕生了被稱為「神之一手」的第 37 手——AlphaGo 在五路下出一步肩衝，所有職業棋手都認為是失誤，結果證明是致勝關鍵。

（詳見下一篇：「神之一手」深度分析）

AlphaGo 再次獲勝。

第三盤：3:0

第三盤，李世乭嘗試了非傳統的開局，但 AlphaGo 應對自如。3:0。

全世界開始意識到：這不是偶然，AI 真的超越了人類。

第四盤：人類的反擊

第四盤，李世乭下出了被稱為「神之一手」的第 78 手——一步精妙的挖，讓 AlphaGo 出現了混亂。

AlphaGo 在接下來的幾步中下出明顯的壞棋，最終認輸。

這場勝利證明：AI 也有弱點。李世乭找到了它。

第五盤：最終比數

第五盤，AlphaGo 恢復正常，以中盤勝結束比賽。

最終比數：AlphaGo 4:1 李世乭

影響與餘波

全球關注

這場比賽的影響遠超圍棋界：

全球 2 億人 觀看了直播
《紐約時報》、《經濟學人》等主流媒體大篇幅報導
Google 股價在比賽期間上漲
「人工智慧」成為當年最熱門的科技話題

對圍棋界的影響

比賽後，職業棋手的態度從「輕視」轉為「敬畏」：

"我們以前認為人類理解圍棋，現在發現我們只是懂一點皮毛。" — 柯潔，中國棋手，當時世界排名第一

許多職業棋手開始使用 AI 來訓練，圍棋的下法也因此改變。

對 AI 領域的影響

AlphaGo 證明了幾件事：

深度學習可以解決專家級問題：不只是識別貓狗，還能下圍棋
強化學習可以超越人類：透過自我對弈，AI 可以發現人類未知的策略
神經網路 + 搜索是強大的組合：直覺 + 推理 = 更強的智能

這些洞見後來被應用到：

AlphaFold：蛋白質結構預測（2020 諾貝爾獎級成就）
AlphaZero：通用遊戲 AI
MuZero：不需要規則的學習

動畫對應

本文涉及的核心概念與動畫編號：

編號	概念	物理/數學對應
🎬 E7	從零開始	自組織
🎬 E5	自我對弈	不動點收斂
🎬 F8	湧現能力	相變
🎬 H4	策略梯度	隨機優化

參考資料

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
《AlphaGo》紀錄片 (2017)，導演 Greg Kohs。

📌 重點摘要

本文重點：

DeepMind 由 Demis Hassabis 創立，結合神經科學、遊戲設計與機器學習背景，目標是創造通用人工智慧（AGI）
AlphaGo 的成功來自跨領域團隊合作：圍棋專家（黃士傑）、強化學習專家（David Silver）與工程師的結合
2016 年 AlphaGo 以 4:1 擊敗李世乭，證明深度學習與強化學習能解決傳統 AI 無法攻克的複雜問題

常見問題

DeepMind 為什麼選擇圍棋作為 AI 研究目標？

圍棋被稱為「AI 的聖杯」，因為它的搜索空間（10^170）遠超宇宙原子數，且需要直覺判斷而非暴力計算。攻克圍棋代表 AI 在複雜決策問題上的重大突破。

AlphaGo 的核心創新是什麼？

AlphaGo 結合了三大創新：Policy Network（策略網路）預測下一步、Value Network（價值網路）評估局面勝率、以及將這兩個神經網路整合進蒙地卡羅樹搜索（MCTS）框架。

李世乭為什麼能在第四盤贏 AlphaGo？

李世乭下出了精妙的第 78 手「神之一手」，這步棋暴露了 AlphaGo 在特定複雜局面下的評估錯誤，導致它在後續幾步下出明顯的壞棋而認輸。

DeepMind 的創立​

Demis Hassabis：從神童到 AI 先驅​

西洋棋神童​

遊戲設計師​

認知神經科學家​

共同創辦人​

「解決智能，用智能解決一切」​

早期突破：Atari 遊戲​

DQN：學會玩遊戲的 AI​

為什麼從遊戲開始？​

Google 的收購​

5 億美元的賭注​

收購條件​

Google 的 AI 戰略​

選擇圍棋作為目標​

為什麼是圍棋？​

1. 圍棋是「AI 的聖杯」​

2. 深藍的啟示​

3. 可測量的目標​

4. 與神經科學的連結​

AlphaGo 團隊​

核心人物​

David Silver：首席研究員​

Aja Huang：圍棋專家​

其他關鍵成員​

跨領域合作​

Nature 論文發表​

秘密的驚喜​

論文的核心貢獻​

1. Policy Network（策略網路）​

2. Value Network（價值網路）​

3. 蒙地卡羅樹搜索整合​

學術界的反應​

挑戰李世乭​

為什麼是李世乭？​

1 百萬美元獎金​

比賽前的預測​

2016 年 3 月：改變世界的五盤棋​

第一盤：震驚開始​

第二盤：神之一手​

第三盤：3:0​

第四盤：人類的反擊​

第五盤：最終比數​

影響與餘波​

全球關注​

對圍棋界的影響​

對 AI 領域的影響​

動畫對應​

延伸閱讀​

參考資料​