AlphaGo 的遺產
2016 年 3 月,AlphaGo 擊敗李世乭的那一刻,不只是圍棋歷史的轉折點,更是人工智慧發展的里程碑。從那時起,AlphaGo 的技術核心被應用到越來越多的領域,從遊戲到科學發現,從基礎研究到實際應用。
本文將回顧 AlphaGo 對圍棋界、AI 研究、以及更廣泛科學領域的深遠影響。
對圍棋界的影響
震驚與接受
AlphaGo 擊敗李世乭之前,職業棋手普遍認為 AI 還差得遠:
"我會 5:0 獲勝。" — 李世乭,賽前預測
但比賽結果是 4:1。更衝擊的是,AlphaGo 展現的下法讓職業棋手意識到:我們對圍棋的理解可能是錯的。
棋理的革新
AlphaGo 帶來了一系列棋理革新:
| 傳統觀點 | AlphaGo 的挑戰 |
|---|---|
| 點三三要在適當時機 | 開局直接點三三可行 |
| 定式要嚴格遵守 | 可以主動脫離定式 |
| 實地與外勢要平衡 | 勝率才是唯一標準 |
| 愚形必須避免 | 某些「愚形」其實是好棋 |
| 序盤要搶大場 | 局部戰鬥可能更重要 |
這些變化不是因為 AlphaGo「告訴」人類該怎麼下,而是人類在研究 AI 棋譜後,主動學習並驗證的結果。
AI 訓練成為常態
2024 年的職業圍棋界,AI 訓練已經是標配:
| 變化 | 描述 |
|---|---|
| 覆盤方式 | 用 AI 分析每一手的勝率和建議 |
| 開局準備 | 研究 AI 推薦的開局變化 |
| 戰術訓練 | 用 AI 產生的死活題和手筋題練習 |
| 實戰應用 | 某些職業比賽允許休息時查 AI |
對職業棋手的影響
不同棋手對 AI 的態度:
"AI 讓我重新愛上圍棋。原來圍棋還有這麼多我不知道的東西。" — 柯潔,2017
"和 AI 下棋讓我感到絕望,但研究 AI 讓我找到新的方向。" — 李世乭,2019(退役前)
"AI 不是對手,是老師。" — 許多職業棋手的共識
新一代棋手
2016 年後出道的職業棋手,從小就接受 AI 訓練:
- 開局更加多樣化
- 戰術更加精確
- 對「傳統棋理」更加靈活
- 整體水平可能比前一代更高
這是圍棋歷史上從未有過的學習資源——一個永遠可用、永不疲倦、棋力超人的老師。
AlphaZero:通用遊戲 AI
從圍棋到三種棋類
2017 年 12 月,DeepMind 發表 AlphaZero,將 AlphaGo Zero 的技術推廣到三種不同的棋類遊戲:
| 遊戲 | 訓練時間 | 對手 | 戰績 |
|---|---|---|---|
| 圍棋 | 8 小時 | AlphaGo Zero | 60:40 |
| 西洋棋 | 4 小時 | Stockfish | 155:6(含和棋) |
| 將棋 | 2 小時 | Elmo | 90:8:2 |
同一套演算法,三種不同的遊戲,都達到超人水平。
對西洋棋界的衝擊
西洋棋有超過一百年的 AI 研究歷史,Stockfish 是數十年工程優化的結晶。AlphaZero 用 4 小時從零開始訓練,就擊敗了這一切。
更重要的是 AlphaZero 的下棋風格:
"AlphaZero 的棋像是來自另一個星球。它願意犧牲子力換取長期的位置優勢,這在傳統西洋棋中是不可想像的。" — Garry Kasparov,前西洋棋世界冠軍
技術上的意義
AlphaZero 證明了:
- 通用性:同一套方法適用於不同領域
- 第一性原理學習:不需要領域專家知識
- 效率:訓練時間從月縮短到小時
這為 AI 的通用化邁出了關鍵一步。
MuZero:無需規則的學習
更進一步的突破
2019 年,DeepMind 發表 MuZero,比 AlphaZero 更進一步:
AlphaZero 需要知道遊戲規則,MuZero 連規則都不需要。
MuZero 透過與環境互動,自己學習環境的動態模型(dynamics model),然後用這個學習到的模型進行規劃。
工作原理
AlphaGo/AlphaZero:
環境規則(已知)→ MCTS 搜索 → 最佳動作
MuZero:
環境觀察 → 學習動態模型 → 用學習到的模型進行 MCTS → 最佳動作
MuZero 學習三個模型:
- 表示函數(Representation):將觀察轉換為隱狀態
- 動態函數(Dynamics):預測下一個隱狀態和獎勵
- 預測函數(Prediction):預測策略和價值
應用範圍擴大
因為不需要明確的規則,MuZero 可以應用於更多領域:
| 領域 | 描述 |
|---|---|
| Atari 遊戲 | 57 個遊戲,大部分超越人類 |
| 棋類遊戲 | 與 AlphaZero 同等水平 |
| 視訊壓縮 | 用於 YouTube 視訊編碼,節省 4% 頻寬 |
| 資料中心冷卻 | 優化 Google 資料中心能源效率 |
對 AI 研究的啟示
MuZero 展示了模型學習(Model-based RL) 的威力:
- 不需要手動定義環境規則
- 可以處理連續狀態空間
- 可以處理部分可觀察環境
- 更接近人類的學習方式
AlphaFold:改變生物學的 AI
蛋白質結構預測
2020 年,DeepMind 發表 AlphaFold 2,在蛋白質結構預測競賽(CASP14)中取得驚人成績:
| 指標 | AlphaFold 2 | 第二名 |
|---|---|---|
| GDT-TS 分數 | 92.4 | 67.0 |
| 中位誤差 | 0.96 Å | ~2.5 Å |
這個精度已經接近實驗測量的水平,解決了生物學領域 50 年的難題。
與 AlphaGo 的技術聯繫
AlphaFold 不是直接使用 AlphaGo 的程式碼,但繼承了核心理念:
| AlphaGo 技術 | AlphaFold 中的對應 |
|---|---|
| 深度神經網路 | Transformer + Attention |
| 迭代優化 | 迭代細化結構預測 |
| 端到端學習 | 從序列直接預測結構 |
| 大規模訓練 | 利用大量已知結構訓練 |
科學界的反應
"這將改變一切。我們不再需要等待數年進行實驗,就可以知道蛋白質的結構。" — 結構生物學家
AlphaFold 的影響:
- 藥物開發:加速新藥設計
- 疾病研究:理解疾病機制
- 合成生物學:設計新蛋白質
- 基礎研究:促進生命科學發展
2024 年,AlphaFold 的創造者 Demis Hassabis 和 John Jumper 因此獲得諾貝爾化學獎。
開放科學
DeepMind 將 AlphaFold 預測的2 億+蛋白質結構開放給全球研究者免費使用。這是 AI 促進開放科學的典範。
對 AI 領域的啟示
方法論的轉變
AlphaGo 代表了 AI 研究方法論的轉變:
| 傳統方法 | AlphaGo 方法 |
|---|---|
| 手工設計特徵 | 端到端學習 |
| 專家規則 | 從資料學習 |
| 分步驟優化 | 聯合優化 |
| 人類知識編碼 | 從零開始學習 |
這種「少一點人類設計,多一點學習」的理念,影響了 AI 的各個子領域。
強化學習的復興
AlphaGo 讓強化學習重新受到關注:
| 時期 | 強化學習地位 |
|---|---|
| 2010 年前 | 理論有趣,實用困難 |
| 2013 年 DQN | 開始展現潛力 |
| 2016 年 AlphaGo | 證明可以解決複雜問題 |
| 2017 年後 | 成為 AI 研究熱點 |
現在,強化學習被應用於:
- 機器人控制
- 自動駕駛
- 推薦系統
- 大型語言模型對齊(RLHF)
計算與演算法的權衡
AlphaGo 系列的演進展示了計算與演算法的權衡:
AlphaGo Fan: 大量人類知識 + 大量計算
AlphaGo Lee: 人類知識 + 更多計算
AlphaGo Zero: 零人類知識 + 中等計算 + 更好的演算法
AlphaZero: 零人類知識 + 少量計算 + 最佳演算法
更好的演算法可以減少對計算資源的需求。這對 AI 民主化很重要。
技術遺產的擴散
開源社群
AlphaGo 的技術被開源社群快速複現和改進:
| 項目 | 特點 | 狀態 |
|---|---|---|
| Leela Zero | 分散式社群訓練 | 活躍 |
| KataGo | 單 GPU 高效訓練 | 非常活躍 |
| ELF OpenGo | Facebook 開源 | 維護中 |
| Minigo | Google 開源教學專案 | 完成 |
| Pachi | 傳統 MCTS,AI 時代前的王者 | 歷史意義 |
研究論文引用
AlphaGo 相關論文的影響力:
| 論文 | 引用數(約) |
|---|---|
| AlphaGo(2016, Nature) | 20,000+ |
| AlphaGo Zero(2017, Nature) | 15,000+ |
| AlphaZero(2018, Science) | 10,000+ |
這些論文被 AI、神經科學、認知科學、遊戲研究等多個領域引用。
教育影響
AlphaGo 成為 AI 教育的經典案例:
- 大學課程的必讀材料
- 強化學習教科書的重要章節
- 科普文章和紀錄片的熱門主題
- 激勵新一代研究者進入 AI 領域
對社會的更廣泛影響
AI 意識的提升
AlphaGo 讓公眾意識到 AI 的能力:
| 面向 | 影響 |
|---|---|
| 媒體報導 | AI 成為主流新聞話題 |
| 投資熱潮 | AI 創業和投資大幅增加 |
| 政策討論 | 各國開始制定 AI 戰略 |
| 公眾認知 | 更多人了解 AI 的可能性和風險 |
人機關係的思考
AlphaGo 引發了關於人機關係的深層思考:
"如果機器在圍棋上超越人類,那人類的價值在哪裡?"
圍棋界給出了一個答案:
- AI 是工具,不是對手
- 人類的價值不在於和機器比賽
- 圍棋的樂趣不會因為 AI 而消失
這種思考方式,對其他 AI 可能超越人類的領域也有借鏡意義。
倫理考量
DeepMind 在 AlphaGo 專案中也面對了倫理問題:
- 比賽公平性:AI 對人類是否公平?
- 職業棋手的未來:AI 會取代人類嗎?
- 技術責任:強大的 AI 應該如何被使用?
DeepMind 成立了倫理委員會,並在收購協議中加入了 AI 安全條款。這種做法影響了後來的 AI 公司。
未來展望
AI 的下一個挑戰
AlphaGo 之後,AI 研究者在問:下一個「圍棋」是什麼?
| 候選領域 | 難度 | 進展 |
|---|---|---|
| 即時戰略遊戲(如 StarCraft) | 極高 | AlphaStar 達到宗師水平 |
| 開放世界遊戲(如 Minecraft) | 很高 | 正在研究中 |
| 科學發現 | 極高 | AlphaFold 在蛋白質領域突破 |
| 數學定理證明 | 極高 | AlphaProof 取得進展 |
| 通用人工智慧(AGI) | 未知 | 長期目標 |
從專用到通用
AlphaGo 系列的演進方向:
AlphaGo(圍棋專用)
↓
AlphaZero(棋類通用)
↓
MuZero(遊戲通用)
↓
?(領域通用)
↓
AGI(完全通用)
每一步都在減少對特定領域知識的依賴,增加通用性。
DeepMind 的願景
DeepMind 的使命依然是:
"Solve intelligence, and then use that to solve everything else."
AlphaGo 是這個願景的第一個重要里程碑。AlphaFold 是第二個。未來會有更多。
結語
回顧 AlphaGo 的故事,我們看到的不只是一個打敗人類的 AI,而是:
- 技術突破:深度學習 + 強化學習 + 樹搜索的強大組合
- 方法論革新:從零開始學習,超越人類知識
- 工程成就:分散式系統和專用硬體的完美配合
- 科學應用:從遊戲到蛋白質結構的跨越
- 文化影響:改變人類對 AI 和自身的認識
AlphaGo 證明了:正確的方法 + 足夠的計算,可以解決曾被認為不可能的問題。
這個教訓將繼續指引未來的 AI 研究。而圍棋——這個有數千年歷史的遊戲——將永遠是這段歷史的見證者。
動畫對應
本文涉及的核心概念與動畫編號:
| 編號 | 概念 | 物理/數學對應 |
|---|---|---|
| 🎬 F8 | 湧現能力 | 相變 |
| 🎬 E7 | 從零開始 | 自組織 |
| 🎬 F1 | 通用智能 | 普適性 |
| 🎬 F5 | 遷移學習 | 知識轉移 |
延伸閱讀
- 回到開始:AlphaGo 的誕生 — 這一切是如何開始的
- 技術總結:AlphaGo 完整解析 — 系列文章總覽
- 動手實作:30 分鐘跑起第一個圍棋 AI — 親自體驗
參考資料
- Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
- Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
- Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
- Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.
- Jumper, J., et al. (2021). "Highly accurate protein structure prediction with AlphaFold." Nature, 596, 583-589.
- 《AlphaGo》紀錄片(2017),導演 Greg Kohs。
- Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
- Kasparov, G. (2018). "Chess, a Drosophila of reasoning." Science, 362(6419), 1087.
本文重點:
- AlphaGo 對圍棋界的影響:改變棋理認知(如開局直接點三三)、AI 訓練成為職業棋手標配、激發新一代棋手
- 技術演進路線:AlphaGo → AlphaZero(通用棋類)→ MuZero(無需規則學習)→ AlphaFold(蛋白質結構,2024 諾貝爾獎)
- 方法論轉變:從「專家知識編碼」轉向「從第一性原理學習」,讓機器自己發現知識比教它知識更有效
常見問題
AlphaGo 如何改變了職業圍棋界?
AlphaGo 帶來多項棋理革新:開局直接點三三可行、可主動偏離定式、某些「愚形」其實是好棋等。現在 AI 訓練是職業棋手標配,用於覆盤分析、開局準備、戰術訓練。新一代棋手從小接受 AI 指導,整體水平可能比前一代更高。
AlphaFold 和 AlphaGo 有什麼技術關聯?
AlphaFold 繼承了 AlphaGo 的核心理念:深度神經網路、端到端學習、迭代優化。雖然 AlphaFold 使用 Transformer + Attention 而非 CNN,但「讓機器自己學習而非編碼專家知識」的哲學一脈相承。AlphaFold 解決了蛋白質結構預測這個 50 年難題,其創造者在 2024 年獲得諾貝爾化學獎。
MuZero 和 AlphaZero 有什麼不同?
AlphaZero 需要知道遊戲規則才能進行 MCTS 搜索;MuZero 更進一步,連規則都不需要,它自己學習環境的動態模型。MuZero 學習三個函數:表示函數(觀察→隱狀態)、動態函數(預測下一狀態)、預測函數(策略和價值)。這讓它能應用於更多領域,如 Atari 遊戲、視訊壓縮、資料中心冷卻等。