AlphaGo 時代（2015-2017）

2015 年至 2017 年，Google DeepMind 嘅 AlphaGo 系列程式創造咗人工智能歷史上最具標誌性嘅突破之一。喺短短兩年之內，圍棋由「人工智能無法征服嘅遊戲」變成咗「AI 完全超越人類嘅領域」。

2015 至 2017 年間，DeepMind 嘅 AlphaGo 先於 2015 年擊敗職業棋手樊麾、2016 年以 4:1 擊敗李世乭，再以 Master 喺網上連勝並於 2017 年戰勝柯潔，靠深度神經網絡結合蒙特卡羅樹搜索，令 AI 完全超越人類圍棋水準。

2015 年 10 月：AlphaGo 擊敗樊麾

歷史性嘅秘密對局

2015 年 10 月，喺倫敦嘅一間辦公室入面，DeepMind 安排咗一場秘密對局。對手係歐洲圍棋冠軍、職業二段棋手樊麾。

比賽結果：AlphaGo 以 5:0 完勝。

呢個係歷史上第一次有電腦程式喺公平條件下（冇讓子）擊敗職業圍棋棋手。消息喺 2016 年 1 月正式公布，即刻引起全球轟動。

初代 AlphaGo 嘅技術

呢一版本嘅 AlphaGo 使用咗兩個關鍵技術嘅結合：

深度神經網絡：通過學習幾十萬局人類職業對局，訓練出可以評估局面嘅「價值網絡」同可以預測下一手嘅「策略網絡」
蒙特卡羅樹搜索（MCTS）：利用神經網絡嘅輸出嚟指導搜索，大幅減少需要計算嘅變化數量

呢種「直覺」加「計算」嘅結合，正正係人類棋手思考問題嘅方式——只不過 AI 喺兩方面都做得更好。

2016 年 3 月：AlphaGo vs 李世乭

世紀對決

2016 年 3 月 9 日至 15 日，AlphaGo 同世界頂尖棋手李世乭喺首爾進行五番棋對決。呢場比賽吸引咗全球超過兩億人觀看，成為人工智能歷史上最受關注嘅事件之一。

比賽結果

局數	日期	結果	備註
第 1 局	3 月 9 日	AlphaGo 勝	中盤勝
第 2 局	3 月 10 日	AlphaGo 勝	中盤勝，出現著名嘅「第 37 手」
第 3 局	3 月 12 日	AlphaGo 勝	中盤勝
第 4 局	3 月 13 日	李世乭勝	李世乭第 78 手「神之一手」
第 5 局	3 月 15 日	AlphaGo 勝	中盤勝

最終比分：AlphaGo 4:1 李世乭

第 2 局第 37 手：「神之一手」

喺第二局入面，AlphaGo 喺右邊落出咗一手令所有觀戰棋手困惑嘅「肩衝」。

呢手棋睇落毫無道理，唔符合任何人類已知嘅定式。解說員估計呢手棋嘅人類落出機率唔到萬分之一。不過，隨住棋局進行，呢手棋嘅深意逐漸顯現——佢同時對多個方向施加影響，效率極高。

呢一手棋被稱為「神之一手」，象徵住 AI 已經發展出人類無法理解嘅圍棋理念。

第 4 局第 78 手：人類嘅反擊

喺連輸三局之後，李世乭喺第四局入面落出咗同樣驚人嘅一手——第 78 手「挖」。

呢手棋係一個巧妙嘅手筋，喺複雜嘅纏鬥入面製造咗 AlphaGo 未能預見嘅變化。AlphaGo 喺呢手棋之後出現咗明顯嘅混亂，最終認輸。

呢個係人類喺正式比賽入面唯一一次擊敗 AlphaGo，李世乭嘅呢手棋被永遠銘記為人類智慧嘅象徵。

比賽嘅影響

呢場比賽嘅影響遠超圍棋界：

人工智能嘅里程碑：證明咗深度學習可以處理極其複雜嘅問題
韓國嘅全民關注：據統計，韓國有超過一半嘅人口觀看咗比賽
圍棋嘅新紀元：職業棋手開始意識到必須向 AI 學習
科技投資熱潮：推動咗全球對 AI 研究嘅投資

2017 年 1 月：Master 60 連勝

神秘嘅線上棋手

2016 年底至 2017 年初，一個名為「Master」嘅帳號出現喺弈城同野狐等圍棋對弈網站上面。佢以極快嘅速度擊敗咗所有挑戰者，包括柯潔、朴廷桓、井山裕太等世界頂尖棋手。

最終戰績：60 戰 60 勝（包括一局因對手掉線判和）

喺第 60 局結束之後，DeepMind 正式宣布：Master 就係 AlphaGo 嘅新版本。

Master 展現嘅新理念

Master 嘅棋風同一年前擊敗李世乭嘅版本明顯唔同：

更快嘅計算速度：每手棋淨係用幾十秒
更激進嘅下法：頻繁使用傳統理論認為「唔好」嘅下法
點三三成為主流：Master 經常喺開局直接點三三

呢啲下法徹底顛覆咗人類幾百年積累嘅圍棋理論，職業棋手開始大量模仿 AI 嘅下法。

2017 年 5 月：AlphaGo vs 柯潔

人類嘅最後挑戰

2017 年 5 月，喺中國烏鎮，AlphaGo 同當時世界排名第一嘅柯潔進行三番棋對決。呢個被視為「人類最後嘅挑戰」。

比賽結果

局數	日期	結果	備註
第 1 局	5 月 23 日	AlphaGo 勝	1/4 子勝（最小差距）
第 2 局	5 月 25 日	AlphaGo 勝	中盤勝
第 3 局	5 月 27 日	AlphaGo 勝	中盤勝

最終比分：AlphaGo 3:0 柯潔

柯潔嘅眼淚

喺第二局比賽中途，柯潔一度離席，返嚟嗰陣眼眶泛紅。賽後佢講：

「佢太完美喇，我睇唔到任何勝利嘅希望。」

「同 AlphaGo 落棋，我感受到嘅係佢對圍棋嘅熱愛。」

呢場比賽結束之後，DeepMind 宣布 AlphaGo 退役，唔再參加公開比賽。

2017 年 10 月：AlphaZero 論文

由零開始嘅超越

2017 年 10 月，DeepMind 發表咗 AlphaZero 論文，展示咗更驚人嘅成就。

AlphaZero 嘅突破在於：佢完全唔需要人類棋譜。

程式淨係被告知圍棋嘅規則，然後通過自我對弈學習。由「零」開始，AlphaZero 淨係用咗 40 日 嘅自我訓練，就超越咗所有之前嘅 AlphaGo 版本。

統一嘅智慧

更加令人驚奇嘅係，同樣嘅 AlphaZero 程式（淨係改變遊戲規則）喺圍棋、國際象棋、日本將棋三種遊戲入面，都達到咗超越所有人類同之前最強程式嘅水平。

呢個證明咗深度強化學習嘅通用性——同樣嘅演算法可以掌握完全唔同嘅智力遊戲。

技術解析

深度神經網絡

AlphaGo 使用嘅神經網絡有兩個主要部分：

策略網絡（Policy Network）

輸入：當前棋盤局面
輸出：每一個位置嘅落子機率
功能：模擬人類嘅「直覺」，快速縮小搜索範圍

價值網絡（Value Network）

輸入：當前棋盤局面
輸出：當前局面嘅勝率估計
功能：評估局面嘅好壞，替代傳統嘅窮舉搜索

蒙特卡羅樹搜索（MCTS）

MCTS 係一種搜索演算法，通過以下步驟運作：

選擇（Selection）：由根節點開始，根據某種策略選擇子節點
擴展（Expansion）：喺葉節點處增加新嘅子節點
模擬（Simulation）：由新節點開始，進行隨機模擬直到遊戲結束
反向傳播（Backpropagation）：將模擬結果向上傳遞，更新路徑上所有節點嘅統計資料

AlphaGo 嘅創新在於用神經網絡取代咗隨機模擬，大大提高咗搜索效率。

強化學習

由 AlphaGo Lee 到 AlphaZero，強化學習扮演咗越嚟越重要嘅角色：

AlphaGo Fan（擊敗樊麾）：主要依靠人類棋譜訓練
AlphaGo Lee（擊敗李世乭）：人類棋譜 + 自我對弈
AlphaGo Master（60 連勝）：增強嘅自我對弈訓練
AlphaZero：完全嘅自我對弈，唔需要人類棋譜

呢個演進過程顯示，AI 最終可以完全依靠自我學習達到超人類水平。

AlphaGo 嘅時代喺 2017 年結束，但佢開創嘅技術同理念繼續影響住圍棋同人工智能領域。接住落嚟嘅 KataGo 時代，等呢啲技術走進咗每一個圍棋愛好者嘅電腦同手機。

下一篇：KataGo 時代

2015 年 10 月：AlphaGo 擊敗樊麾​

歷史性嘅秘密對局​

初代 AlphaGo 嘅技術​

2016 年 3 月：AlphaGo vs 李世乭​

世紀對決​

比賽結果​

第 2 局第 37 手：「神之一手」​

第 4 局第 78 手：人類嘅反擊​

比賽嘅影響​

2017 年 1 月：Master 60 連勝​

神秘嘅線上棋手​

Master 展現嘅新理念​

2017 年 5 月：AlphaGo vs 柯潔​

人類嘅最後挑戰​

比賽結果​

柯潔嘅眼淚​

2017 年 10 月：AlphaZero 論文​

由零開始嘅超越​

統一嘅智慧​

技術解析​

深度神經網絡​

蒙特卡羅樹搜索（MCTS）​

強化學習​

2015 年 10 月：AlphaGo 擊敗樊麾

歷史性嘅秘密對局

初代 AlphaGo 嘅技術

2016 年 3 月：AlphaGo vs 李世乭

世紀對決

比賽結果

第 2 局第 37 手：「神之一手」

第 4 局第 78 手：人類嘅反擊

比賽嘅影響

2017 年 1 月：Master 60 連勝

神秘嘅線上棋手

Master 展現嘅新理念

2017 年 5 月：AlphaGo vs 柯潔

人類嘅最後挑戰

比賽結果

柯潔嘅眼淚

2017 年 10 月：AlphaZero 論文

由零開始嘅超越

統一嘅智慧

技術解析

深度神經網絡

蒙特卡羅樹搜索（MCTS）

強化學習