AlphaGo時代(2015-2017)
2015年から2017年、Google DeepMindのAlphaGoシリーズは人工知能史上最も象徴的な突破の1つを成し遂げました。わずか2年で、囲碁は「人工知能が征服できないゲーム」から「AIが人類を完全に超えた分野」へと変貌しました。
2015年10月:AlphaGoが樊麾に勝利
歴史的な秘密対局
2015年10月、ロンドンの一室で、DeepMindは秘密の対局を手配しました。相手はヨーロッパ囲碁チャンピオン、プロ二段の樊麾でした。
結果:AlphaGoが5:0で完勝。
これはコンピュータプログラムが公平な条件下(置き石なし)でプロ囲碁棋士を破った史上初の出来事でした。このニュースは2016年1月に正式発表され、世界中に衝撃を与えました。
初代AlphaGoの技術
このバージョンのAlphaGoは2つの重要な技術を組み合わせていました:
-
深層ニューラルネットワーク:数十万局のプロ対局を学習し、局面を評価する「価値ネットワーク」と次の手を予測する「方策ネットワーク」を訓練
-
モンテカルロ木探索(MCTS):ニューラルネットワークの出力を使って探索を導き、計算すべき変化の数を大幅に削減
この「直感」と「計算」の組み合わせは、まさに人間の棋士が問題を考える方法です——ただしAIは両方の面でより優れていました。
2016年3月:AlphaGo対イ・セドル
世紀の対決
2016年3月9日から15日、AlphaGoと世界トップ棋手イ・セドルがソウルで五番勝負を行いました。この試合は世界中で2億人以上が視聴し、AI史上最も注目されたイベントの1つとなりました。
試合結果
| 局数 | 日付 | 結果 | 備考 |
|---|---|---|---|
| 第1局 | 3月9日 | AlphaGo勝利 | 中押し勝ち |
| 第2局 | 3月10日 | AlphaGo勝利 | 中押し勝ち、有名な「第37手」 |
| 第3局 | 3月12日 | AlphaGo勝利 | 中押し勝ち |
| 第4局 | 3月13日 | イ・セドル勝利 | イ・セドル第78手「神の一手」 |
| 第5局 | 3月15日 | AlphaGo勝利 | 中押し勝ち |
最終スコア:AlphaGo 4:1 イ・セドル
第2局第37手:「神の一手」
第2局で、AlphaGoは右辺に観戦していたすべての棋手を困惑させる「肩衝き」を打ちました。
この手は全く理にかなっていないように見え、人間の既知の定石には当てはまりませんでした。解説者はこの手が人間に打たれる確率を1万分の1以下と推定しました。しかし対局が進むにつれ、この手の深い意味が徐々に明らかになりました——複数の方向に同時に影響を与え、効率が極めて高かったのです。
この一手は「神の一手」と呼ばれ、AIが人間には理解できない囲碁の概念を発展させたことを象徴しました。
第4局第78手:人類の反撃
3連敗の後、イ・セドルは第4局で同様に驚くべき一手を打ちました——第78手の「ワリコミ」。
この手は巧妙な手筋で、複雑な戦いの中でAlphaGoが予見できなかった変化を作り出しました。AlphaGoはこの手の後、明らかに混乱し、最終的に投了しました。
これは公式戦で人類がAlphaGoに勝った唯一の勝利であり、イ・セドルのこの一手は人類の知恵の象徴として永遠に記憶されることになりました。
試合の影響
この試合の影響は囲碁界を超えました:
- 人工知能のマイルストーン:深層学習が極めて複雑な問題を処理できることを証明
- 韓国全土の注目:統計によると、韓国の人口の半数以上が試合を視聴
- 囲碁の新紀元:プロ棋士がAIから学ぶ必要性を認識し始めた
- 技術投資ブーム:AI研究への世界的な投資を促進
2017年1月:Master 60連勝
謎のオンライン棋士
2016年末から2017年初頭、「Master」というアカウントが弈城や野狐などの囲碁対戦サイトに現れました。非常に速いスピードですべての挑戦者を破り、柯潔、朴廷桓、井山裕太など世界トップ棋手も含まれていました。
最終戦績:60戦60勝(1局は相手の回線切断により引き分け判定)
60局目終了後、DeepMindは正式に発表しました:MasterはAlphaGoの新バージョンでした。
Masterが示した新しい概念
Masterの棋風は1年前にイ・セドルを破ったバージョンとは明らかに異なりました:
- より速い計算速度:各手わずか数十秒
- より積極的な打ち方:伝統的理論では「良くない」とされる打ち方を頻繁に使用
- 三々点が主流に:Masterは序盤で直接三々を打つことが多かった
これらの打ち方は人類の数百年の囲碁理論を完全に覆し、プロ棋士は大量にAIの打ち方を真似し始めました。
2017年5月:AlphaGo対柯潔
人類最後の挑戦
2017年5月、中国の烏鎮で、AlphaGoと当時世界ランキング1位の柯潔が三番勝負を行いました。これは「人類最後の挑戦」と見なされました。
試合結果
| 局数 | 日付 | 結果 | 備考 |
|---|---|---|---|
| 第1局 | 5月23日 | AlphaGo勝利 | 1/4子勝ち(最小差) |
| 第2局 | 5月25日 | AlphaGo勝利 | 中押し勝ち |
| 第3局 | 5月27日 | AlphaGo勝利 | 中押し勝ち |
最終スコア:AlphaGo 3:0 柯潔
柯潔の涙
第2局の途中、柯潔は一度席を外し、戻ってきた時は目が赤くなっていました。試合後、彼は語りました:
「それは完璧すぎる、勝利の希望が見えない。」
「AlphaGoと打って、私は囲碁への情熱を感じた。」
この試合終了後、DeepMindはAlphaGoの引退を発表し、公開試合には参加しなくなりました。
2017年10月:AlphaZero論文
ゼロからの超越
2017年10月、DeepMindはAlphaZero論文を発表し、さらに驚くべき成果を示しました。
AlphaZeroの突破は:人間の棋譜を全く必要としないことでした。
プログラムには囲碁のルールだけが教えられ、その後自己対局で学習しました。「ゼロ」から始めて、AlphaZeroはわずか40日間の自己訓練で、以前のすべてのAlphaGoバージョンを超えました。
統一された知性
さらに驚くべきことに、同じAlphaZeroプログラム(ゲームルールを変更するだけ)が囲碁、チェス、将棋の3つのゲームで、すべての人間と以前の最強プログラムを超えるレベルに達しました。
これは深層強化学習の汎用性を証明しました——同じアルゴリズムが全く異なる知的ゲームをマスターできるのです。
技術解説
深層ニューラルネットワーク
AlphaGoが使用したニューラルネットワークには2つの主要部分があります:
方策ネットワーク(Policy Network)
- 入力:現在の碁盤の局面
- 出力:各位置の着手確率
- 機能:人間の「直感」をシミュレートし、探索範囲を迅速に絞り込む
価値ネットワーク(Value Network)
- 入力:現在の碁盤の局面
- 出力:現在局面の勝率推定
- 機能:局面の良し悪しを評価し、従来の総当たり探索を置き換える
モンテカルロ木探索(MCTS)
MCTSは探索アルゴリズムで、以下の手順で動作します:
- 選択(Selection):ルートノードから始め、ある戦略に従って子ノードを選択
- 展開(Expansion):葉ノードで新しい子ノードを追加
- シミュレーション(Simulation):新ノードから始め、ゲーム終了までランダムシミュレーション
- 逆伝播(Backpropagation):シミュレーション結果を上に伝え、経路上のすべてのノードの統計を更新
AlphaGoの革新はニューラルネットワークでランダムシミュレーションを置き換え、探索効率を大幅に向上させたことです。
強化学習
AlphaGo LeeからAlphaZeroまで、強化学習はますます重要な役割を果たしました:
- AlphaGo Fan(樊麾に勝利):主に人間の棋譜で訓練
- AlphaGo Lee(イ・セドルに勝利):人間の棋譜 + 自己対局
- AlphaGo Master(60連勝):強化された自己対局訓練
- AlphaZero:完全な自己対局、人間の棋譜不要
この進化過程は、AIが最終的に完全に自己学習に頼って超人レベルに達できることを示しています。
AlphaGoの時代は2017年に終わりましたが、それが切り開いた技術と理念は囲碁とAI分野に影響を与え続けています。続くKataGo時代は、これらの技術をすべての囲碁愛好家のコンピュータとスマートフォンにもたらしました。
次へ:KataGo時代