跳至主要内容

AlphaGo 時代(2015-2017)

2015 年至 2017 年,Google DeepMind 嘅 AlphaGo 系列程式創造咗人工智能歷史上最具標誌性嘅突破之一。喺短短兩年之內,圍棋由「人工智能無法征服嘅遊戲」變成咗「AI 完全超越人類嘅領域」。

2015 年 10 月:AlphaGo 擊敗樊麾

歷史性嘅秘密對局

2015 年 10 月,喺倫敦嘅一間辦公室入面,DeepMind 安排咗一場秘密對局。對手係歐洲圍棋冠軍、職業二段棋手樊麾

比賽結果:AlphaGo 以 5:0 完勝。

呢個係歷史上第一次有電腦程式喺公平條件下(冇讓子)擊敗職業圍棋棋手。消息喺 2016 年 1 月正式公布,即刻引起全球轟動。

初代 AlphaGo 嘅技術

呢一版本嘅 AlphaGo 使用咗兩個關鍵技術嘅結合:

  1. 深度神經網絡:通過學習幾十萬局人類職業對局,訓練出可以評估局面嘅「價值網絡」同可以預測下一手嘅「策略網絡」

  2. 蒙特卡羅樹搜索(MCTS):利用神經網絡嘅輸出嚟指導搜索,大幅減少需要計算嘅變化數量

呢種「直覺」加「計算」嘅結合,正正係人類棋手思考問題嘅方式——只不過 AI 喺兩方面都做得更好。

2016 年 3 月:AlphaGo vs 李世乭

世紀對決

2016 年 3 月 9 日至 15 日,AlphaGo 同世界頂尖棋手李世乭喺首爾進行五番棋對決。呢場比賽吸引咗全球超過兩億人觀看,成為人工智能歷史上最受關注嘅事件之一。

比賽結果

局數日期結果備註
第 1 局3 月 9 日AlphaGo 勝中盤勝
第 2 局3 月 10 日AlphaGo 勝中盤勝,出現著名嘅「第 37 手」
第 3 局3 月 12 日AlphaGo 勝中盤勝
第 4 局3 月 13 日李世乭勝李世乭第 78 手「神之一手」
第 5 局3 月 15 日AlphaGo 勝中盤勝

最終比分:AlphaGo 4:1 李世乭

第 2 局第 37 手:「神之一手」

喺第二局入面,AlphaGo 喺右邊落出咗一手令所有觀戰棋手困惑嘅「肩衝」。

呢手棋睇落毫無道理,唔符合任何人類已知嘅定式。解說員估計呢手棋嘅人類落出機率唔到萬分之一。不過,隨住棋局進行,呢手棋嘅深意逐漸顯現——佢同時對多個方向施加影響,效率極高。

呢一手棋被稱為「神之一手」,象徵住 AI 已經發展出人類無法理解嘅圍棋理念。

第 4 局第 78 手:人類嘅反擊

喺連輸三局之後,李世乭喺第四局入面落出咗同樣驚人嘅一手——第 78 手「挖」。

呢手棋係一個巧妙嘅手筋,喺複雜嘅纏鬥入面製造咗 AlphaGo 未能預見嘅變化。AlphaGo 喺呢手棋之後出現咗明顯嘅混亂,最終認輸。

呢個係人類喺正式比賽入面唯一一次擊敗 AlphaGo,李世乭嘅呢手棋被永遠銘記為人類智慧嘅象徵。

比賽嘅影響

呢場比賽嘅影響遠超圍棋界:

  • 人工智能嘅里程碑:證明咗深度學習可以處理極其複雜嘅問題
  • 韓國嘅全民關注:據統計,韓國有超過一半嘅人口觀看咗比賽
  • 圍棋嘅新紀元:職業棋手開始意識到必須向 AI 學習
  • 科技投資熱潮:推動咗全球對 AI 研究嘅投資

2017 年 1 月:Master 60 連勝

神秘嘅線上棋手

2016 年底至 2017 年初,一個名為「Master」嘅帳號出現喺弈城同野狐等圍棋對弈網站上面。佢以極快嘅速度擊敗咗所有挑戰者,包括柯潔、朴廷桓、井山裕太等世界頂尖棋手。

最終戰績:60 戰 60 勝(包括一局因對手掉線判和)

喺第 60 局結束之後,DeepMind 正式宣布:Master 就係 AlphaGo 嘅新版本。

Master 展現嘅新理念

Master 嘅棋風同一年前擊敗李世乭嘅版本明顯唔同:

  • 更快嘅計算速度:每手棋淨係用幾十秒
  • 更激進嘅下法:頻繁使用傳統理論認為「唔好」嘅下法
  • 點三三成為主流:Master 經常喺開局直接點三三

呢啲下法徹底顛覆咗人類幾百年積累嘅圍棋理論,職業棋手開始大量模仿 AI 嘅下法。

2017 年 5 月:AlphaGo vs 柯潔

人類嘅最後挑戰

2017 年 5 月,喺中國烏鎮,AlphaGo 同當時世界排名第一嘅柯潔進行三番棋對決。呢個被視為「人類最後嘅挑戰」。

比賽結果

局數日期結果備註
第 1 局5 月 23 日AlphaGo 勝1/4 子勝(最小差距)
第 2 局5 月 25 日AlphaGo 勝中盤勝
第 3 局5 月 27 日AlphaGo 勝中盤勝

最終比分:AlphaGo 3:0 柯潔

柯潔嘅眼淚

喺第二局比賽中途,柯潔一度離席,返嚟嗰陣眼眶泛紅。賽後佢講:

「佢太完美喇,我睇唔到任何勝利嘅希望。」

「同 AlphaGo 落棋,我感受到嘅係佢對圍棋嘅熱愛。」

呢場比賽結束之後,DeepMind 宣布 AlphaGo 退役,唔再參加公開比賽。

2017 年 10 月:AlphaZero 論文

由零開始嘅超越

2017 年 10 月,DeepMind 發表咗 AlphaZero 論文,展示咗更驚人嘅成就。

AlphaZero 嘅突破在於:佢完全唔需要人類棋譜

程式淨係被告知圍棋嘅規則,然後通過自我對弈學習。由「零」開始,AlphaZero 淨係用咗 40 日 嘅自我訓練,就超越咗所有之前嘅 AlphaGo 版本。

統一嘅智慧

更加令人驚奇嘅係,同樣嘅 AlphaZero 程式(淨係改變遊戲規則)喺圍棋、國際象棋、日本將棋三種遊戲入面,都達到咗超越所有人類同之前最強程式嘅水平。

呢個證明咗深度強化學習嘅通用性——同樣嘅演算法可以掌握完全唔同嘅智力遊戲。

技術解析

深度神經網絡

AlphaGo 使用嘅神經網絡有兩個主要部分:

策略網絡(Policy Network)

  • 輸入:當前棋盤局面
  • 輸出:每一個位置嘅落子機率
  • 功能:模擬人類嘅「直覺」,快速縮小搜索範圍

價值網絡(Value Network)

  • 輸入:當前棋盤局面
  • 輸出:當前局面嘅勝率估計
  • 功能:評估局面嘅好壞,替代傳統嘅窮舉搜索

蒙特卡羅樹搜索(MCTS)

MCTS 係一種搜索演算法,通過以下步驟運作:

  1. 選擇(Selection):由根節點開始,根據某種策略選擇子節點
  2. 擴展(Expansion):喺葉節點處增加新嘅子節點
  3. 模擬(Simulation):由新節點開始,進行隨機模擬直到遊戲結束
  4. 反向傳播(Backpropagation):將模擬結果向上傳遞,更新路徑上所有節點嘅統計資料

AlphaGo 嘅創新在於用神經網絡取代咗隨機模擬,大大提高咗搜索效率。

強化學習

由 AlphaGo Lee 到 AlphaZero,強化學習扮演咗越嚟越重要嘅角色:

  • AlphaGo Fan(擊敗樊麾):主要依靠人類棋譜訓練
  • AlphaGo Lee(擊敗李世乭):人類棋譜 + 自我對弈
  • AlphaGo Master(60 連勝):增強嘅自我對弈訓練
  • AlphaZero:完全嘅自我對弈,唔需要人類棋譜

呢個演進過程顯示,AI 最終可以完全依靠自我學習達到超人類水平。


AlphaGo 嘅時代喺 2017 年結束,但佢開創嘅技術同理念繼續影響住圍棋同人工智能領域。接住落嚟嘅 KataGo 時代,等呢啲技術走進咗每一個圍棋愛好者嘅電腦同手機。

下一篇:KataGo 時代