跳至主要内容

關鍵對局回顧

AlphaGo 的歷史,是由一場場震撼世界的對局寫成的。從 2015 年 10 月在倫敦的秘密對局,到 2017 年 5 月在烏鎮的告別演出,每一盤棋都在改寫人類對圍棋與人工智慧的認知。

本文將完整回顧這些關鍵對局的背景、過程與意義。


樊麾對局(2015.10):秘密進行的 5:0

背景:為什麼選擇樊麾?

在 AlphaGo 挑戰世界頂尖棋手之前,DeepMind 需要一個「測試場」。他們需要一位職業棋手來驗證 AlphaGo 的真實實力,但這位棋手必須滿足幾個條件:

  1. 真正的職業水準:業餘棋手無法準確測試 AI 實力
  2. 願意保密:在論文發表前不能洩露消息
  3. 地理位置方便:便於進行多盤正式對局
  4. 開放心態:願意認真對待 AI 對手

樊麾完美符合這些條件。這位出生於中國西安的職業棋手,1996 年入段,2000 年升為二段,後移居法國並成為歐洲圍棋冠軍。他是當時歐洲最強的職業棋手,同時也對人工智慧抱持開放態度。

對局安排

2015 年 10 月,樊麾受邀前往倫敦 DeepMind 總部。在簽署保密協議後,他與 AlphaGo 進行了 5 盤正式對局

對局條件:

  • 用時:每方 1 小時,每手 30 秒讀秒
  • 規則:中國規則,7.5 目貼目
  • 環境:DeepMind 辦公室,由 Aja Huang 代為落子

5:0 的震撼

結果令所有人震驚:AlphaGo 5:0 完勝

盤次日期結果備註
第 1 盤10 月 5 日AlphaGo 中盤勝樊麾執黑
第 2 盤10 月 6 日AlphaGo 中盤勝樊麾執白
第 3 盤10 月 7 日AlphaGo 中盤勝樊麾執黑
第 4 盤10 月 8 日AlphaGo 1.5 目勝樊麾執白
第 5 盤10 月 9 日AlphaGo 中盤勝樊麾執黑

🎬 E1:這 5 盤棋展示了 Policy Network 如何引導搜索方向

樊麾後來回憶:

「第一盤我輸了,我想一定是我大意了。第二盤輸了,我開始認真。第三盤、第四盤、第五盤全輸了,我知道這不是我的問題——是圍棋變了。」

為什麼保密?

DeepMind 選擇保密有幾個原因:

  1. 學術發表:論文需要經過同行審查才能發表
  2. 驗證時間:需要時間確認結果的可重複性
  3. 商業策略:選擇最佳時機公布消息
  4. 保護樊麾:避免他在消息公開前承受壓力

這個秘密被保守了整整三個月,直到 2016 年 1 月《Nature》論文發表。

樊麾的轉變

輸掉這 5 盤棋後,樊麾並沒有感到沮喪。相反,他成為了 AlphaGo 團隊的一員,負責測試和改進系統。

「我不是被 AI 擊敗了,我是成為了 AI 發展的一部分。這是榮幸,不是恥辱。」

這種開放心態,後來成為圍棋界面對 AI 的典範。


李世乭對局(2016.03):改變世界的五盤棋

世紀對決的籌備

2016 年 1 月 27 日,《Nature》論文發表後,DeepMind 宣布將挑戰世界頂尖棋手。目標人選:李世乭(Lee Sedol)。

為什麼是李世乭?

  • 18 個世界冠軍頭銜:過去十年最成功的棋手之一
  • 「神算」的美譽:以精準計算著稱
  • 戰鬥型風格:喜歡複雜、激烈的對局
  • 35 歲正值巔峰:經驗與體力的最佳平衡

🎬 E3:李世乭的風格正好能測試 MCTS 的極限

比賽設置

  • 地點:韓國首爾四季酒店
  • 日期:2016 年 3 月 9-15 日
  • 獎金:100 萬美元(勝者得,平分或捐贈慈善)
  • 規則:中國規則,7.5 目貼目
  • 用時:每方 2 小時,每手 1 分鐘讀秒 3 次

全球 200 多個國家和地區進行直播,預計觀眾超過 2 億人

第一盤:震驚的開始

2016 年 3 月 9 日

李世乭執黑先行。開局階段,雙方中規中矩。但到了中盤,AlphaGo 展現了驚人的大局觀。

在第 102 手時,AlphaGo 下出一步看似退讓的棋,讓出了右邊的實地。職業棋手們紛紛表示不解。但 20 手後,這步棋的妙處顯現——AlphaGo 用犧牲的棋子建立了中央厚勢,最終在全盤取得優勢。

結果:AlphaGo 中盤勝

賽後,李世乭表示:

「我很震驚。我沒想到會輸,更沒想到會輸得這麼徹底。」

🎬 E5:這盤棋展示了 Value Network 評估全局的能力

第二盤:「神之一手」的誕生

2016 年 3 月 10 日

這盤棋誕生了被稱為「神之一手」的第 37 手。(詳見下一篇:「神之一手」深度分析

AlphaGo 在右上角下出一步「五路肩衝」——一個人類幾乎不會考慮的位置。解說員當場表示這是「失誤」,但 50 手後,這步棋被證明是制勝關鍵。

結果:AlphaGo 中盤勝

韓國解說員金成龍九段賽後說:

「我下了 50 年的棋,從沒見過這樣的棋。AlphaGo 讓我重新思考什麼是圍棋。」

🎬 E7:第 37 手展示了 AI 如何發現人類未知的策略

第三盤:絕望的 3:0

2016 年 3 月 12 日

李世乭在這盤棋嘗試了非常規開局,希望將 AlphaGo 帶入未知領域。他採用了「小林流」布局的變形,企圖用複雜的戰鬥取勝。

但 AlphaGo 的應對依然從容。它展現了驚人的適應能力——無論人類如何出招,它都能找到最佳應手。

結果:AlphaGo 中盤勝

比數來到 3:0,比賽已經失去懸念。但所有人都在期待:人類能否贏得一盤?

第四盤:人類的反擊

2016 年 3 月 13 日

這盤棋將永載史冊——不是因為 AI 的神奇,而是因為人類的反擊

局面進行到第 78 手時,李世乭在讀秒中下出了一步驚世之作:五路的妙手

這是一步「挖」的手筋,看似普通,卻讓 AlphaGo 陷入混亂。在接下來的幾手棋中,AlphaGo 的勝率評估出現劇烈波動,它下出了幾步明顯的壞棋。

🎬 E9:這盤棋暴露了 MCTS 在特定局面下的弱點

DeepMind 團隊後來分析,AlphaGo 在那個局面下的勝率評估出現了錯誤。它低估了李世乭那步棋的威力,導致後續應對失誤。

結果:李世乭 中盤勝

這是 AlphaGo 正式比賽中唯一的一場敗北。李世乭激動地說:

「這場勝利無價。它證明了人類棋手仍然能夠戰勝 AI——至少在某些局面下可以。」

Google DeepMind 執行長 Demis Hassabis 發推特:

「李世乭是真正的傳奇。他找到了 AlphaGo 的弱點,並精確地利用了它。」

第五盤:最終的結局

2016 年 3 月 15 日

在獲得一場寶貴的勝利後,李世乭帶著更輕鬆的心態進入第五盤。他採用了更為激進的策略,試圖再次找到 AlphaGo 的弱點。

但 DeepMind 團隊在第四盤後進行了緊急調整。這一版本的 AlphaGo 似乎更加穩健,不再出現之前的評估錯誤。

結果:AlphaGo 中盤勝

最終比分:AlphaGo 4:1 李世乭

對局的歷史意義

這場比賽的影響遠超圍棋界:

對人工智慧

  • 證明深度學習的威力:AI 可以在複雜決策任務上超越人類
  • 強化學習的里程碑:自我對弈訓練被證明有效
  • 激發後續研究:引發了 AI 領域的投資熱潮

對圍棋界

  • 傳統理論被挑戰:很多「定式」被證明次優
  • 訓練方式改變:職業棋手開始使用 AI 輔助訓練
  • 新下法的誕生:AI 引入了許多創新手法

對公眾

  • AI 意識覺醒:普通人開始關注人工智慧
  • 科技報導增加:主流媒體大量報導 AI 進展
  • 電影與紀錄片:催生了《AlphaGo》紀錄片

🎬 E11:這場比賽標誌著 AI 能力的「相變」時刻


Master 60 連勝(2017.01):線上快棋的震撼

神秘的「Master」帳號

2016 年 12 月 29 日,一個名為「Master」的帳號出現在中國弈城圍棋和騰訊野狐圍棋網站上。

這個帳號的表現令人難以置信:

  • 連勝所有對手:無一敗績
  • 對手全是頂尖棋手:包括世界冠軍和九段高手
  • 用時極短:每步棋幾乎都是秒下

很快,整個圍棋界都在討論:「Master」到底是誰?

60 連勝的壯舉

從 12 月 29 日到 2017 年 1 月 4 日,「Master」進行了 60 盤快棋,全部獲勝

被擊敗的棋手名單猶如世界圍棋名人堂:

排名棋手戰績
世界第 1柯潔(中國)0-3
世界第 2朴廷桓(韓國)0-2
世界第 3井山裕太(日本)0-1
傳奇棋手聶衛平(中國)0-1
傳奇棋手古力(中國)0-2
.........

總計包括超過 50 位職業九段,涵蓋中日韓三國頂尖棋手。

🎬 E13:快棋展示了 Policy Network 即時決策的能力

身份揭曉

2017 年 1 月 4 日,在完成第 60 勝後,「Master」在聊天室透露了身份:

「我是 AlphaGo 的黃博士。」

黃博士就是 Aja Huang(黃士傑),AlphaGo 團隊的核心成員。

DeepMind 隨後正式確認:「Master」是 AlphaGo 的新版本,這次測試的目的是驗證系統在線上環境中的穩定性。

職業棋手的反應

60 連勝的衝擊,比李世乭對局更加深刻。因為這次的對手更多、範圍更廣。

柯潔(三次敗給 Master):

「人類與 AI 的差距比我們想像的還要大。我們一直以為自己理解圍棋,但 Master 讓我覺得我們連入門都談不上。」

聶衛平(中國棋聖):

「我下了 60 年的棋,第一次感覺如此無力。這不是技術的差距,是維度的差距。」

古力(八個世界冠軍):

「輸給 Master 後,我開始思考人類棋手的價值在哪裡。我們還需要職業比賽嗎?」

技術分析

這一版本的 AlphaGo(後來被稱為 AlphaGo Master)相比李世乭對局版本有顯著提升:

指標Lee 版本Master 版本提升
Elo 評分~3,600~4,800+1,200
自我對弈勝率-99%+-
Policy 準確度~57%~62%+5%
訓練時間數月額外數月-

🎬 E15:Elo 的提升展示了自我對弈的指數級進步


柯潔對局(2017.05):王者的謝幕

最後的挑戰者

在 Master 60 連勝後,很少有人還認為人類有機會戰勝 AlphaGo。但有一個人依然渴望一戰——柯潔

當時 19 歲的柯潔,是世界排名第一的棋手。他曾多次公開表示:

「我不認為 AlphaGo 能擊敗我。即使 Master 贏了我三盤快棋,正式比賽是不同的。」

Google 接受了挑戰。

烏鎮圍棋峰會

2017 年 5 月,「未來圍棋峰會」在中國浙江烏鎮舉行。這是一場圍繞 AlphaGo 的盛大活動,包括:

  1. 柯潔三番棋:人類最強對 AI 最強
  2. 配對賽:人類 + AlphaGo vs 人類 + AlphaGo
  3. 團隊賽:五位中國頂尖棋手聯手對抗 AlphaGo

三番棋:3:0 的結局

第一盤(5 月 23 日)

柯潔執黑先行,開局採用了較為穩健的「中國流」布局。這是經過深思熟慮的選擇——柯潔希望避免被 AlphaGo 的大局觀擊敗,轉而在細節處爭取機會。

但 AlphaGo 的應對完美無瑕。它在每個關鍵時刻都找到了最準確的下法,逐漸累積優勢。

結果:AlphaGo 以 1/4 子(0.5 目)獲勝

這是圍棋中可能的最小勝利差距。柯潔賽後落淚:

「我已經用盡全力,但還是差了一點點。」

🎬 E17:1/4 子的差距展示了 AI 的精確控制能力

第二盤(5 月 25 日)

柯潔改變策略,採用了模仿 AlphaGo 的開局方式。他使用了「點三三」直接進角的新手法——這正是 AlphaGo 帶給圍棋界的創新。

「既然你的下法更好,我就學你的下法。」

但 AlphaGo 不為所動。它依然按照自己的節奏進行,在中盤戰鬥中展現了驚人的計算能力。

結果:AlphaGo 中盤勝

第三盤(5 月 27 日)

最後一盤,柯潔孤注一擲。他採用了極為激進的戰鬥風格,試圖將 AlphaGo 拖入混戰。

開局階段,柯潔確實製造了一些複雜局面。但 AlphaGo 的應對依然精準,它沒有給柯潔任何翻盤的機會。

結果:AlphaGo 中盤勝

最終比分:AlphaGo 3:0 柯潔

🎬 E19:三番棋展示了 AlphaGo 的絕對統治力

配對賽與團隊賽

除了柯潔三番棋,峰會還進行了兩種創新賽制:

配對賽(5 月 26 日)

連笑 + AlphaGo vs 古力 + AlphaGo

這場比賽的有趣之處在於:當人類棋手與 AlphaGo 意見不同時,會發生什麼?

結果顯示:完全遵從 AlphaGo 建議的一方表現更好。當人類棋手試圖「修正」AlphaGo 的下法時,往往會導致局面惡化。

結果:連笑 + AlphaGo 勝

團隊賽(5 月 26 日)

中國隊(周睿羊、時越、唐韋星、陳耀燁、芈昱廷) vs AlphaGo

五位中國頂尖棋手合作對抗一台 AI。他們可以充分討論,共同決定每一步棋。

但結果沒有懸念:AlphaGo 中盤勝

這場比賽證明:即使人類頂尖棋手聯手,也無法戰勝 AlphaGo。

AlphaGo 的退役宣言

2017 年 5 月 27 日,在柯潔三番棋結束後,DeepMind 發表了一份重要聲明:

「這是 AlphaGo 最後一次公開對弈。我們相信 AlphaGo 已經完成了它的使命——證明 AI 可以在圍棋這個人類智慧的巔峰領域達到超越人類的水平。

接下來,我們將把從 AlphaGo 學到的技術應用到更重要的問題上:醫療、能源、材料科學。這才是人工智慧的真正價值所在。」

同時宣布:

  1. AlphaGo 教學工具:將發布 AlphaGo 的對局分析供棋手學習
  2. 50 盤自我對弈棋譜:公開 AlphaGo vs AlphaGo 的棋譜
  3. 技術論文:將在《Nature》發表 AlphaGo Zero 的研究成果

🎬 E21:AlphaGo 的退役標誌著一個時代的結束


對局的歷史定位

技術里程碑

AlphaGo 的對局在人工智慧史上具有里程碑意義:

年份事件意義
1997深藍擊敗卡斯帕洛夫暴力搜索的勝利
2011Watson 贏得 Jeopardy!自然語言處理的突破
2016AlphaGo 擊敗李世乭深度學習 + 強化學習的勝利
2017AlphaGo Zero 100:0純粹自我學習的勝利

🎬 E23:每個里程碑都代表了 AI 方法論的演進

對圍棋界的影響

棋譜研究的改變

傳統上,職業棋手主要研究人類棋譜。但 AlphaGo 之後,AI 棋譜成為必修課。

  • 點三三開局:AlphaGo 證明直接點角是有效策略
  • 肩衝的妙用:第 37 手改變了對「肩衝」這個手筋的認知
  • 厚勢的價值:AI 展示了厚勢轉化的新方式

訓練方式的變革

職業棋手的訓練方式發生根本改變:

傳統方式AI 時代方式
研究人類棋譜研究 AI 棋譜
依靠師父指導使用 AI 分析工具
記憶定式理解 AI 的評估邏輯
實戰練習AI 覆盤分析

新一代棋手的崛起

2016 年後成長起來的棋手,被稱為「AI 原住民」。他們的棋風明顯受到 AI 影響:

  • 更注重效率而非傳統美學
  • 更願意嘗試非傳統下法
  • 更依賴精確計算而非直覺

哲學反思

AlphaGo 的勝利引發了深刻的哲學討論:

智慧的本質是什麼?

AlphaGo 「理解」圍棋嗎?還是它只是在進行精確的計算?這個問題至今沒有定論。

人類的價值在哪裡?

當 AI 在圍棋上超越人類,圍棋比賽還有意義嗎?很多棋手重新思考自己的職業意義。

有趣的是,AlphaGo 之後,圍棋的全球關注度反而提高了。人們意識到:圍棋不只是競技,也是藝術和哲學。

AI 的發展方向

AlphaGo 的成功讓人們對 AI 既期待又擔憂。DeepMind 選擇讓 AlphaGo 退役,轉向解決「真正重要的問題」,這本身就是一個倫理選擇。

🎬 E25:AlphaGo 引發了關於 AI 倫理的廣泛討論


遺珠:其他重要對局

與其他 AI 的對決

在公開賽之外,AlphaGo 還與其他圍棋 AI 進行了大量對局:

對手版本結果
Crazy Stone2015 年最強圍棋程式全勝
Zen日本最強圍棋 AI全勝
舊版 AlphaGo各版本自我對弈-

內部測試

DeepMind 團隊進行了大量內部測試:

  • AlphaGo Lee vs AlphaGo Master:Master 版本勝率超過 99%
  • AlphaGo Master vs AlphaGo Zero:Zero 版本勝率超過 89%
  • 不同訓練時間的版本對弈:觀察學習曲線

這些測試數據後來都在論文中公開,成為研究 AI 學習的重要資料。


動畫對應

本文涉及的核心概念與動畫編號:

編號概念物理/數學對應
🎬 E1Policy Network 引導搜索機率分布
🎬 E3測試 MCTS 的極限樹搜索深度
🎬 E5Value Network 全局評估價值函數
🎬 E7發現未知策略探索 vs 利用
🎬 E9MCTS 的弱點邊界條件
🎬 E11能力的「相變」臨界現象
🎬 E13即時決策能力推理速度
🎬 E15自我對弈的指數進步迭代優化
🎬 E17精確控制能力數值穩定性
🎬 E19絕對統治力收斂到最優
🎬 E21時代的結束任務完成
🎬 E23方法論演進典範轉移
🎬 E25AI 倫理討論社會影響

延伸閱讀


參考資料

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
  3. 《AlphaGo》紀錄片 (2017),導演 Greg Kohs。
  4. DeepMind 官方 Blog:AlphaGo 系列文章
  5. 李世乭對局官方棋譜與評論(韓國棋院)
  6. 烏鎮圍棋峰會官方紀錄

📌 重點摘要

本文重點:

  • AlphaGo 經歷四個階段:2015 年秘密擊敗樊麾 5:0、2016 年擊敗李世乭 4:1、2017 年 Master 線上 60 連勝、2017 年擊敗柯潔 3:0
  • 每個版本的 AlphaGo 都比前一版強大許多:AlphaGo Master 對 Lee 版本勝率超過 99%
  • 這些對局不只改變了圍棋界,更引發了全球對 AI 能力與倫理的深度討論

常見問題

為什麼 DeepMind 先與樊麾對局而不是直接挑戰世界冠軍?

DeepMind 需要驗證 AlphaGo 的實力,同時保持學術論文發表前的保密。樊麾是歐洲最強的職業棋手,地理位置方便且願意保密,是理想的測試對象。

Master 在線上 60 連勝的意義是什麼?

Master 擊敗了超過 50 位職業九段,包括柯潔、朴廷桓等世界頂尖棋手,證明 AlphaGo 已經遠超人類最高水平,且快棋能力極強。這讓圍棋界意識到人機差距比想像中更大。

AlphaGo 為什麼在烏鎮峰會後宣布退役?

DeepMind 認為 AlphaGo 已完成使命——證明 AI 可以在圍棋這個人類智慧巔峰領域超越人類。接下來團隊要將技術應用到醫療、能源、科學研究等更重要的問題上。