跳至主要内容

AlphaGo 的遺產

2016 年 3 月,AlphaGo 擊敗李世乭的那一刻,不只是圍棋歷史的轉折點,更是人工智慧發展的里程碑。從那時起,AlphaGo 的技術核心被應用到越來越多的領域,從遊戲到科學發現,從基礎研究到實際應用。

本文將回顧 AlphaGo 對圍棋界、AI 研究、以及更廣泛科學領域的深遠影響。


對圍棋界的影響

震驚與接受

AlphaGo 擊敗李世乭之前,職業棋手普遍認為 AI 還差得遠:

"我會 5:0 獲勝。" — 李世乭,賽前預測

但比賽結果是 4:1。更衝擊的是,AlphaGo 展現的下法讓職業棋手意識到:我們對圍棋的理解可能是錯的

棋理的革新

AlphaGo 帶來了一系列棋理革新:

傳統觀點AlphaGo 的挑戰
點三三要在適當時機開局直接點三三可行
定式要嚴格遵守可以主動脫離定式
實地與外勢要平衡勝率才是唯一標準
愚形必須避免某些「愚形」其實是好棋
序盤要搶大場局部戰鬥可能更重要

這些變化不是因為 AlphaGo「告訴」人類該怎麼下,而是人類在研究 AI 棋譜後,主動學習並驗證的結果。

AI 訓練成為常態

2024 年的職業圍棋界,AI 訓練已經是標配:

變化描述
覆盤方式用 AI 分析每一手的勝率和建議
開局準備研究 AI 推薦的開局變化
戰術訓練用 AI 產生的死活題和手筋題練習
實戰應用某些職業比賽允許休息時查 AI

對職業棋手的影響

不同棋手對 AI 的態度:

"AI 讓我重新愛上圍棋。原來圍棋還有這麼多我不知道的東西。" — 柯潔,2017

"和 AI 下棋讓我感到絕望,但研究 AI 讓我找到新的方向。" — 李世乭,2019(退役前)

"AI 不是對手,是老師。" — 許多職業棋手的共識

新一代棋手

2016 年後出道的職業棋手,從小就接受 AI 訓練:

  • 開局更加多樣化
  • 戰術更加精確
  • 對「傳統棋理」更加靈活
  • 整體水平可能比前一代更高

這是圍棋歷史上從未有過的學習資源——一個永遠可用、永不疲倦、棋力超人的老師。


AlphaZero:通用遊戲 AI

從圍棋到三種棋類

2017 年 12 月,DeepMind 發表 AlphaZero,將 AlphaGo Zero 的技術推廣到三種不同的棋類遊戲:

遊戲訓練時間對手戰績
圍棋8 小時AlphaGo Zero60:40
西洋棋4 小時Stockfish155:6(含和棋)
將棋2 小時Elmo90:8:2

同一套演算法,三種不同的遊戲,都達到超人水平。

對西洋棋界的衝擊

西洋棋有超過一百年的 AI 研究歷史,Stockfish 是數十年工程優化的結晶。AlphaZero 用 4 小時從零開始訓練,就擊敗了這一切。

更重要的是 AlphaZero 的下棋風格:

"AlphaZero 的棋像是來自另一個星球。它願意犧牲子力換取長期的位置優勢,這在傳統西洋棋中是不可想像的。" — Garry Kasparov,前西洋棋世界冠軍

技術上的意義

AlphaZero 證明了:

  1. 通用性:同一套方法適用於不同領域
  2. 第一性原理學習:不需要領域專家知識
  3. 效率:訓練時間從月縮短到小時

這為 AI 的通用化邁出了關鍵一步。


MuZero:無需規則的學習

更進一步的突破

2019 年,DeepMind 發表 MuZero,比 AlphaZero 更進一步:

AlphaZero 需要知道遊戲規則,MuZero 連規則都不需要。

MuZero 透過與環境互動,自己學習環境的動態模型(dynamics model),然後用這個學習到的模型進行規劃。

工作原理

AlphaGo/AlphaZero:
環境規則(已知)→ MCTS 搜索 → 最佳動作

MuZero:
環境觀察 → 學習動態模型 → 用學習到的模型進行 MCTS → 最佳動作

MuZero 學習三個模型:

  • 表示函數(Representation):將觀察轉換為隱狀態
  • 動態函數(Dynamics):預測下一個隱狀態和獎勵
  • 預測函數(Prediction):預測策略和價值

應用範圍擴大

因為不需要明確的規則,MuZero 可以應用於更多領域:

領域描述
Atari 遊戲57 個遊戲,大部分超越人類
棋類遊戲與 AlphaZero 同等水平
視訊壓縮用於 YouTube 視訊編碼,節省 4% 頻寬
資料中心冷卻優化 Google 資料中心能源效率

對 AI 研究的啟示

MuZero 展示了模型學習(Model-based RL) 的威力:

  • 不需要手動定義環境規則
  • 可以處理連續狀態空間
  • 可以處理部分可觀察環境
  • 更接近人類的學習方式

AlphaFold:改變生物學的 AI

蛋白質結構預測

2020 年,DeepMind 發表 AlphaFold 2,在蛋白質結構預測競賽(CASP14)中取得驚人成績:

指標AlphaFold 2第二名
GDT-TS 分數92.467.0
中位誤差0.96 Å~2.5 Å

這個精度已經接近實驗測量的水平,解決了生物學領域 50 年的難題。

與 AlphaGo 的技術聯繫

AlphaFold 不是直接使用 AlphaGo 的程式碼,但繼承了核心理念:

AlphaGo 技術AlphaFold 中的對應
深度神經網路Transformer + Attention
迭代優化迭代細化結構預測
端到端學習從序列直接預測結構
大規模訓練利用大量已知結構訓練

科學界的反應

"這將改變一切。我們不再需要等待數年進行實驗,就可以知道蛋白質的結構。" — 結構生物學家

AlphaFold 的影響:

  • 藥物開發:加速新藥設計
  • 疾病研究:理解疾病機制
  • 合成生物學:設計新蛋白質
  • 基礎研究:促進生命科學發展

2024 年,AlphaFold 的創造者 Demis Hassabis 和 John Jumper 因此獲得諾貝爾化學獎

開放科學

DeepMind 將 AlphaFold 預測的2 億+蛋白質結構開放給全球研究者免費使用。這是 AI 促進開放科學的典範。


對 AI 領域的啟示

方法論的轉變

AlphaGo 代表了 AI 研究方法論的轉變:

傳統方法AlphaGo 方法
手工設計特徵端到端學習
專家規則從資料學習
分步驟優化聯合優化
人類知識編碼從零開始學習

這種「少一點人類設計,多一點學習」的理念,影響了 AI 的各個子領域。

強化學習的復興

AlphaGo 讓強化學習重新受到關注:

時期強化學習地位
2010 年前理論有趣,實用困難
2013 年 DQN開始展現潛力
2016 年 AlphaGo證明可以解決複雜問題
2017 年後成為 AI 研究熱點

現在,強化學習被應用於:

  • 機器人控制
  • 自動駕駛
  • 推薦系統
  • 大型語言模型對齊(RLHF)

計算與演算法的權衡

AlphaGo 系列的演進展示了計算與演算法的權衡:

AlphaGo Fan:  大量人類知識 + 大量計算
AlphaGo Lee: 人類知識 + 更多計算
AlphaGo Zero: 零人類知識 + 中等計算 + 更好的演算法
AlphaZero: 零人類知識 + 少量計算 + 最佳演算法

更好的演算法可以減少對計算資源的需求。這對 AI 民主化很重要。


技術遺產的擴散

開源社群

AlphaGo 的技術被開源社群快速複現和改進:

項目特點狀態
Leela Zero分散式社群訓練活躍
KataGo單 GPU 高效訓練非常活躍
ELF OpenGoFacebook 開源維護中
MinigoGoogle 開源教學專案完成
Pachi傳統 MCTS,AI 時代前的王者歷史意義

研究論文引用

AlphaGo 相關論文的影響力:

論文引用數(約)
AlphaGo(2016, Nature)20,000+
AlphaGo Zero(2017, Nature)15,000+
AlphaZero(2018, Science)10,000+

這些論文被 AI、神經科學、認知科學、遊戲研究等多個領域引用。

教育影響

AlphaGo 成為 AI 教育的經典案例:

  • 大學課程的必讀材料
  • 強化學習教科書的重要章節
  • 科普文章和紀錄片的熱門主題
  • 激勵新一代研究者進入 AI 領域

對社會的更廣泛影響

AI 意識的提升

AlphaGo 讓公眾意識到 AI 的能力:

面向影響
媒體報導AI 成為主流新聞話題
投資熱潮AI 創業和投資大幅增加
政策討論各國開始制定 AI 戰略
公眾認知更多人了解 AI 的可能性和風險

人機關係的思考

AlphaGo 引發了關於人機關係的深層思考:

"如果機器在圍棋上超越人類,那人類的價值在哪裡?"

圍棋界給出了一個答案:

  • AI 是工具,不是對手
  • 人類的價值不在於和機器比賽
  • 圍棋的樂趣不會因為 AI 而消失

這種思考方式,對其他 AI 可能超越人類的領域也有借鏡意義。

倫理考量

DeepMind 在 AlphaGo 專案中也面對了倫理問題:

  • 比賽公平性:AI 對人類是否公平?
  • 職業棋手的未來:AI 會取代人類嗎?
  • 技術責任:強大的 AI 應該如何被使用?

DeepMind 成立了倫理委員會,並在收購協議中加入了 AI 安全條款。這種做法影響了後來的 AI 公司。


未來展望

AI 的下一個挑戰

AlphaGo 之後,AI 研究者在問:下一個「圍棋」是什麼?

候選領域難度進展
即時戰略遊戲(如 StarCraft)極高AlphaStar 達到宗師水平
開放世界遊戲(如 Minecraft)很高正在研究中
科學發現極高AlphaFold 在蛋白質領域突破
數學定理證明極高AlphaProof 取得進展
通用人工智慧(AGI)未知長期目標

從專用到通用

AlphaGo 系列的演進方向:

AlphaGo(圍棋專用)

AlphaZero(棋類通用)

MuZero(遊戲通用)

?(領域通用)

AGI(完全通用)

每一步都在減少對特定領域知識的依賴,增加通用性。

DeepMind 的願景

DeepMind 的使命依然是:

"Solve intelligence, and then use that to solve everything else."

AlphaGo 是這個願景的第一個重要里程碑。AlphaFold 是第二個。未來會有更多。


結語

回顧 AlphaGo 的故事,我們看到的不只是一個打敗人類的 AI,而是:

  • 技術突破:深度學習 + 強化學習 + 樹搜索的強大組合
  • 方法論革新:從零開始學習,超越人類知識
  • 工程成就:分散式系統和專用硬體的完美配合
  • 科學應用:從遊戲到蛋白質結構的跨越
  • 文化影響:改變人類對 AI 和自身的認識

AlphaGo 證明了:正確的方法 + 足夠的計算,可以解決曾被認為不可能的問題

這個教訓將繼續指引未來的 AI 研究。而圍棋——這個有數千年歷史的遊戲——將永遠是這段歷史的見證者。


動畫對應

本文涉及的核心概念與動畫編號:

編號概念物理/數學對應
🎬 F8湧現能力相變
🎬 E7從零開始自組織
🎬 F1通用智能普適性
🎬 F5遷移學習知識轉移

延伸閱讀


參考資料

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
  3. Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
  4. Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.
  5. Jumper, J., et al. (2021). "Highly accurate protein structure prediction with AlphaFold." Nature, 596, 583-589.
  6. 《AlphaGo》紀錄片(2017),導演 Greg Kohs。
  7. Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
  8. Kasparov, G. (2018). "Chess, a Drosophila of reasoning." Science, 362(6419), 1087.

📌 重點摘要

本文重點:

  • AlphaGo 對圍棋界的影響:改變棋理認知(如開局直接點三三)、AI 訓練成為職業棋手標配、激發新一代棋手
  • 技術演進路線:AlphaGo → AlphaZero(通用棋類)→ MuZero(無需規則學習)→ AlphaFold(蛋白質結構,2024 諾貝爾獎)
  • 方法論轉變:從「專家知識編碼」轉向「從第一性原理學習」,讓機器自己發現知識比教它知識更有效

常見問題

AlphaGo 如何改變了職業圍棋界?

AlphaGo 帶來多項棋理革新:開局直接點三三可行、可主動偏離定式、某些「愚形」其實是好棋等。現在 AI 訓練是職業棋手標配,用於覆盤分析、開局準備、戰術訓練。新一代棋手從小接受 AI 指導,整體水平可能比前一代更高。

AlphaFold 和 AlphaGo 有什麼技術關聯?

AlphaFold 繼承了 AlphaGo 的核心理念:深度神經網路、端到端學習、迭代優化。雖然 AlphaFold 使用 Transformer + Attention 而非 CNN,但「讓機器自己學習而非編碼專家知識」的哲學一脈相承。AlphaFold 解決了蛋白質結構預測這個 50 年難題,其創造者在 2024 年獲得諾貝爾化學獎。

MuZero 和 AlphaZero 有什麼不同?

AlphaZero 需要知道遊戲規則才能進行 MCTS 搜索;MuZero 更進一步,連規則都不需要,它自己學習環境的動態模型。MuZero 學習三個函數:表示函數(觀察→隱狀態)、動態函數(預測下一狀態)、預測函數(策略和價值)。這讓它能應用於更多領域,如 Atari 遊戲、視訊壓縮、資料中心冷卻等。