AlphaGo 時代(2015-2017)
2015 年至 2017 年,Google DeepMind 嘅 AlphaGo 系列程式創造咗人工智能歷史上最具標誌性嘅突破之一。喺短短兩年之內,圍棋由「人工智能無法征服嘅遊戲」變成咗「AI 完全超越人類嘅領域」。
2015 年 10 月:AlphaGo 擊敗樊麾
歷史性嘅秘密對局
2015 年 10 月,喺倫敦嘅一間辦公室入面,DeepMind 安排咗一場秘密對局。對手係歐洲圍棋冠軍、職業二段棋手樊麾。
比賽結果:AlphaGo 以 5:0 完勝。
呢個係歷史上第一次有電腦程式喺公平條件下(冇讓子)擊敗職業圍棋棋手。消息喺 2016 年 1 月正式公布,即刻引起全球轟動。
初代 AlphaGo 嘅技術
呢一版本嘅 AlphaGo 使用咗兩個關鍵技術嘅結合:
-
深度神經網絡:通過學習幾十萬局人類職業對局,訓練出可以評估局面嘅「價值網絡」同可以預測下一手嘅「策略網絡」
-
蒙特卡羅樹搜索(MCTS):利用神經網絡嘅輸出嚟指導搜索,大幅減少需要計算嘅變化數量
呢種「直覺」加「計算」嘅結合,正正係人類棋手思考問題嘅方式——只不過 AI 喺兩方面都做得更好。
2016 年 3 月:AlphaGo vs 李世乭
世紀對決
2016 年 3 月 9 日至 15 日,AlphaGo 同世界頂尖棋手李世乭喺首爾進行五番棋對決。呢場比賽吸引咗全球超過兩億人觀看,成為人工智能歷史上最受關注嘅事件之一。
比賽結果
| 局數 | 日期 | 結果 | 備註 |
|---|---|---|---|
| 第 1 局 | 3 月 9 日 | AlphaGo 勝 | 中盤勝 |
| 第 2 局 | 3 月 10 日 | AlphaGo 勝 | 中盤勝,出現著名嘅「第 37 手」 |
| 第 3 局 | 3 月 12 日 | AlphaGo 勝 | 中盤勝 |
| 第 4 局 | 3 月 13 日 | 李世乭勝 | 李世乭第 78 手「神之一手」 |
| 第 5 局 | 3 月 15 日 | AlphaGo 勝 | 中盤勝 |
最終比分:AlphaGo 4:1 李世乭
第 2 局第 37 手:「神之一手」
喺第二局入面,AlphaGo 喺右邊落出咗一手令所有觀戰棋手困惑嘅「肩衝」。
呢手棋睇落毫無道理,唔符合任何人類已知嘅定式。解說員估計呢手棋嘅人類落出機率唔到萬分之一。不過,隨住棋局進行,呢手棋嘅深意逐漸顯現——佢同時對多個方向施加影響,效率極高。
呢一手棋被稱為「神之一手」,象徵住 AI 已經發展出人類無法理解嘅圍棋理念。
第 4 局第 78 手:人類嘅反擊
喺連輸三局之後,李世乭喺第四局入面落出咗同樣驚人嘅一手——第 78 手「挖」。
呢手棋係一個巧妙嘅手筋,喺複雜嘅纏鬥入面製造咗 AlphaGo 未能預見嘅變化。AlphaGo 喺呢手棋之後出現咗明顯嘅混亂,最終認輸。
呢個係人類喺正式比賽入面唯一一次擊敗 AlphaGo,李世乭嘅呢手棋被永遠銘記為人類智慧嘅象徵。
比賽嘅影響
呢場比賽嘅影響遠超圍棋界:
- 人工智能嘅里程碑:證明咗深度學習可以處理極其複雜嘅問題
- 韓國嘅全民關注:據統計,韓國有超過一半嘅人口觀看咗比賽
- 圍棋嘅新紀元:職業棋手開始意識到必須向 AI 學習
- 科技投資熱潮:推動咗全球對 AI 研究嘅投資
2017 年 1 月:Master 60 連勝
神秘嘅線上棋手
2016 年底至 2017 年初,一個名為「Master」嘅帳號出現喺弈城同野狐等圍棋對弈網站上面。佢以極快嘅速度擊敗咗所有挑戰者,包括柯潔、朴廷桓、井山裕太等世界頂尖棋手。
最終戰績:60 戰 60 勝(包括一局因對手掉線判和)
喺第 60 局結束之後,DeepMind 正式宣布:Master 就係 AlphaGo 嘅新版本。
Master 展現嘅新理念
Master 嘅棋風同一年前擊敗李世乭嘅版本明顯唔同:
- 更快嘅計算速度:每手棋淨係用幾十秒
- 更激進嘅下法:頻繁使用傳統理論認為「唔好」嘅下法
- 點三三成為主流:Master 經常喺開局直接點三三
呢啲下法徹底顛覆咗人類幾百年積累嘅圍棋理論,職業棋手開始大量模仿 AI 嘅下法。
2017 年 5 月:AlphaGo vs 柯潔
人類嘅最後挑戰
2017 年 5 月,喺中國烏鎮,AlphaGo 同當時世界排名第一嘅柯潔進行三番棋對決。呢個被視為「人類最後嘅挑戰」。
比賽結果
| 局數 | 日期 | 結果 | 備註 |
|---|---|---|---|
| 第 1 局 | 5 月 23 日 | AlphaGo 勝 | 1/4 子勝(最小差距) |
| 第 2 局 | 5 月 25 日 | AlphaGo 勝 | 中盤勝 |
| 第 3 局 | 5 月 27 日 | AlphaGo 勝 | 中盤勝 |
最終比分:AlphaGo 3:0 柯潔
柯潔嘅眼淚
喺第二局比賽中途,柯潔一度離席,返嚟嗰陣眼眶泛紅。賽後佢講:
「佢太完美喇,我睇唔到任何勝利嘅希望。」
「同 AlphaGo 落棋,我感受到嘅係佢對圍棋嘅熱愛。」
呢場比賽結束之後,DeepMind 宣布 AlphaGo 退役,唔再參加公開比賽。
2017 年 10 月:AlphaZero 論文
由零開始嘅超越
2017 年 10 月,DeepMind 發表咗 AlphaZero 論文,展示咗更驚人嘅成就。
AlphaZero 嘅突破在於:佢完全唔需要人類棋譜。
程式淨係被告知圍棋嘅規則,然後通過自我對弈學習。由「零」開始,AlphaZero 淨係用咗 40 日 嘅自我訓練,就超越咗所有之前嘅 AlphaGo 版本。
統一嘅智慧
更加令人驚奇嘅係,同樣嘅 AlphaZero 程式(淨係改變遊戲規則)喺圍棋、國際象棋、日本將棋三種遊戲入面,都達到咗超越所有人類同之前最強程式嘅水平。
呢個證明咗深度強化學習嘅通用性——同樣嘅演算法可以掌握完全唔同嘅智力遊戲。
技術解析
深度神經網絡
AlphaGo 使用嘅神經網絡有兩個主要部分:
策略網絡(Policy Network)
- 輸入:當前棋盤局面
- 輸出:每一個位置嘅落子機率
- 功能:模擬人類嘅「直覺」,快速縮小搜索範圍
價值網絡(Value Network)
- 輸入:當前棋盤局面
- 輸出:當前局面嘅勝率估計
- 功能:評估局面嘅好壞,替代傳統嘅窮舉搜索
蒙特卡羅樹搜索(MCTS)
MCTS 係一種搜索演算法,通過以下步驟運作:
- 選擇(Selection):由根節點開始,根據某種策略選擇子節點
- 擴展(Expansion):喺葉節點處增加新嘅子節點
- 模擬(Simulation):由新節點開始,進行隨機模擬直到遊戲結束
- 反向傳播(Backpropagation):將模擬結果向上傳遞,更新路徑上所有節點嘅統計資料
AlphaGo 嘅創新在於用神經網絡取代咗隨機模擬,大大提高咗搜索效率。
強化學習
由 AlphaGo Lee 到 AlphaZero,強化學習扮演咗越嚟越重要嘅角色:
- AlphaGo Fan(擊敗樊麾):主要依靠人類棋譜訓練
- AlphaGo Lee(擊敗李世乭):人類棋譜 + 自我對弈
- AlphaGo Master(60 連勝):增強嘅自我對弈訓練
- AlphaZero:完全嘅自我對弈,唔需要人類棋譜
呢個演進過程顯示,AI 最終可以完全依靠自我學習達到超人類水平。
AlphaGo 嘅時代喺 2017 年結束,但佢開創嘅技術同理念繼續影響住圍棋同人工智能領域。接住落嚟嘅 KataGo 時代,等呢啲技術走進咗每一個圍棋愛好者嘅電腦同手機。
下一篇:KataGo 時代