メインコンテンツまでスキップ

「神の一手」徹底分析

2016年3月10日、AlphaGoと李世ドルの第二局。第37手で、AlphaGoは右上方向の五路に「肩ツキ」を打った。

この一手は、後に「神の一手」(Divine Move)と呼ばれるようになった。AlphaGoの勝利をもたらしただけでなく、人類の囲碁に対する理解を根本から変えた。

本記事では、この一手を多角的に深く分析する:対局の背景、伝統的な棋理、専門家の反応、AIの視点、そして囲碁理論への長期的な影響について。


対局の局面を振り返る

第二局の序盤

第一局で敗北した後、李世ドルは第二局で戦略を調整した。白番を選択し、AlphaGoの序盤の傾向を観察してから戦略を立てようとした。

序盤の展開:

  • 黒1:右上隅星
  • 白2:左下隅星
  • 黒3-白4:互いに一隅ずつ占める

第36手までは、局面は順調に進行していた。AlphaGoは黒番で、右上隅で局地戦を展開していた。白番(李世ドル)は右辺に勢力を築き、黒は上辺にある程度の実地を持っていた。

第36手後の局面

第36手後の盤面状態を見てみよう:

ABCDEFGHJKLMNOPQRST
19
18
17
16+++
15
14白の勢力圏
13
12
11
10+++
9
8
7
6
5
4+++
3
2
1

簡略化した図、実際の局面はより複雑

重要な観察点:

  • 白は右辺に外勢を持つ
  • 黒は上辺に実地の可能性を持つ
  • 右上隅の戦いは一段落

この時点で、黒番(AlphaGo)の手番だった。


伝統的な打ち方の分析

プロ棋士の予想

第37手の前、解説室のプロ棋士たちは熱心に議論していた。彼らは黒が以下のいずれかの手を選ぶと予想していた:

選択肢A:右下隅へのカカリ

これが最も「普通」の選択だ。黒は:

  • 最後の大場(右下隅)を占める
  • 局面のバランスを維持する
  • 「隅は金、辺は銀、中央は草」という伝統的価値観に従う

選択肢B:上辺の囲い

黒は上辺で二間または三間に開き、自身の勢力圏を固めることもできる。これにより:

  • 上辺の可能性を実地に変換する
  • 白の発展空間を制限する

選択肢C:中央への打ち込み

一部の棋士は、黒が中央に打って白の右辺の外勢を制約するかもしれないと考えていた。最も一般的な選択ではないが、戦略的には理にかなっている。

--- C3:伝統的棋理の価値判断

誰も予想しなかった選択

しかし、AlphaGoはほとんど誰も考えなかった位置を選んだ:

E5(五路の肩ツキ)

この一手は盤面右半分、中央寄りの位置に打たれ、白の右辺の外勢への「肩ツキ」だった。


第37手:五路の肩ツキ

この手はどこに?

ABCDEFGHJKLMNOPQRST
19
18
17
16+++
1537第37手
14
13
12

第37手は K15(またはJ5、座標系統は資料により異なる)の位置に打たれた。

「肩ツキ」とは何か?

「肩ツキ」は囲碁の手筋の一つで、相手の石に斜めに接近する打ち方を指す。その特徴は:

  • 直接接触しない:相手の石と一路の距離を保つ
  • 形を崩す:相手の予想される展開を乱す
  • 応対が難しい:相手がどう応じても、何らかの代償が生じる

伝統的に、肩ツキは三路か四路に打つのが普通だ。五路の肩ツキは極めて珍しい。なぜなら:

  1. 位置が高すぎる:五路は中央に近く、伝統的には効率が低いとされる
  2. 攻撃されやすい:孤立した石は相手の攻撃対象になりやすい
  3. 価値が不明確:隅や辺のような明確な実地価値がない

--- C5:肩ツキの幾何学的特性


専門家の即時反応

解説室の衝撃

第37手が打たれた瞬間、解説室は一瞬の沈黙に包まれた。

韓国解説(金成龍九段)

「これは...何だ?この手が五路に?理解できない。これは間違いに違いない」

中国解説(古力九段)

「この手は理解できない。もし私の弟子がこう打ったら、厳しく叱るだろう」

アメリカ解説(マイケル・レドモンド九段)

「Very unusual move. I don't think any human would play this.」

(非常に珍しい一手だ。人間がこう打つとは思えない)

プロ棋士のリアルタイムコメント

様々な配信プラットフォームで、プロ棋士たちがコメントを発表した:

柯潔(当時世界ランキング1位):

「この手の意図が理解できない。もしAlphaGoが勝ったら、真剣に研究する」

朴廷桓(韓国トップ棋士):

「この手は奇妙すぎる。プログラムに問題があるのでは?」

芈昱廷(中国の世界チャンピオン):

「五路の肩ツキ?こんな打ち方は見たことがない」

--- C7:専門家の直感とAI評価のギャップ

「一万分の一の確率」

対局後、DeepMindチームは驚くべきデータを明らかにした:

「私たちの分析によると、もしプロ棋士が同じ局面に直面した場合、第37手の位置を選ぶ確率は約 一万分の一 です」

言い換えれば、人間の囲碁知識体系において、この手はほぼ「存在しない」選択肢だった。


AIの視点からの解読

Policy Networkの確率分布

AlphaGoのPolicy Networkがこの局面をどう評価したか見てみよう:

載入中...

上図は、AlphaGoの各位置に対する着手確率評価を示している。

重要な観察点:

  • 第37手の位置:確率約8%、最高ではない
  • 伝統的な候補点(右下隅など):確率約12%
  • その他の候補位置:様々な領域に分散

興味深いことに、第37手はPolicy Networkの評価では最も確率が高い選択ではなかった。では、なぜAlphaGoはそれを選んだのか?

--- C9:Policy Networkの出力分布

MCTSによる深層評価

答えは**モンテカルロ木探索(MCTS)**にある。

Policy Networkは「直感」のみを提供し、実際の決定はMCTSの深層シミュレーションから来る。AlphaGoは決定を下す前に、数千通りの可能な未来の展開をシミュレートする。

第37手について、MCTSの評価プロセスは以下のようになる:

右下隅の「直感的確率」の方が高いにもかかわらず、深層シミュレーション後は第37手の期待勝率が高かった

--- C11:MCTSがPolicy Networkの判断をどう修正するか

Value Networkの全局評価

Value Networkは全局的な視点から第37手の価値を評価した:

第37手を打つ前の勝率:約52%(黒やや優勢)

第37手を打った後の勝率:約58%(黒明らかに優勢)

これは、第37手がAlphaGoの期待勝率を6ポイント向上させたことを意味する。

この向上幅は囲碁においてかなり顕著だ。通常、一手の好手がもたらす勝率向上は2-3%程度で十分良いとされる。

--- C13:Value Networkの増分評価


棋理分析:なぜ五路の肩ツキなのか?

局所的な視点から

表面的には、第37手は効率が非常に低いように見える:

  • 位置が高すぎる:五路は四路や三路より中央寄り
  • 実地がない:隅や辺のように直接実地を囲えない
  • 攻撃されやすい:孤立した石は白に攻撃される可能性がある

しかし、詳しく分析すると、この手にはいくつかの微妙な利点がある:

  1. 白の外勢を破壊:白は元々右辺で発展する計画だったが、第37手がそれを乱した
  2. 自身の影響力を確立:この手は実地を囲わないが、中央に存在感を確立した
  3. 変化を増やす:複雑な局面を作り出し、計算能力が高い方に有利

全局的な視点から

この手の真の価値は全局的な視点から理解する必要がある:

厚みと実地のトレードオフ

伝統的な囲碁理論では「隅は金、辺は銀、中央は草」と言われる——隅が最も価値があり、中央が最も価値が低い。しかし、第37手はこの概念に挑戦した。

AlphaGoの評価は示した:この特定の局面では、中央の影響力は隅や辺の実地より価値がある

なぜなら:

  • 黒はすでに十分な実地基盤を持っている
  • 白の右辺の外勢が発展すれば非常に強力になる
  • 自己拡張より白を制約することが重要

--- C15:全局価値関数の計算

「先手」の価値

第37手にはもう一つ過小評価されている利点がある:「先手」を維持したことだ。

囲碁において「先手」は主導権を握ることを意味する。第37手を打った後、白は対応せざるを得なくなり、黒は引き続き局面の方向性を主導できた。

もし黒が「普通」の右下隅カカリを選んでいたら、両者は隅で定石を打ち、局面は均衡に向かっただろう。しかし第37手はこのバランスを崩し、局面を不確実性で満たした——そしてそれこそがAlphaGoの得意分野だった。

李世ドルの応対のジレンマ

第37手の後、李世ドルは長い時間考え込んだ。彼が直面したジレンマは:

もし直接応対(例えば跳びや飛び)すれば

  • 第37手の価値を認めることになる
  • 黒に白の外勢を破壊するという目的を達成させる

もし無視すれば

  • 黒はさらに中央を発展させる可能性がある
  • 白の右辺の外勢は実地になりにくい

最終的に、李世ドルは応対することを選んだ。しかし彼が何を選んでも、第37手はすでにその目的を達成していた。

--- C17:ゲーム理論における強制的選択


その後の展開:第37手から勝利へ

中盤の展開

第37手の後、対局は複雑な中盤戦に入った。

重要な進展

  • 40-50手目:両者は右辺で激しい接触戦を展開
  • 50-70手目:AlphaGoは第37手で確立した影響力を活用し、中央で優位を得た
  • 70-100手目:黒は徐々に優勢を実地に変換

100手目頃には、AlphaGoのリードはかなり明確になっていた。李世ドルは懸命に反撃したが、局勢を覆すことはできなかった。

最終結果

AlphaGo中押し勝ち

この対局の勝利において、第37手は大きな功績を果たした。対局後の分析によると、第37手がなければ、局面はより接近し、白が優勢になる可能性もあった。

--- C19:一手がいかに対局全体の流れを変えたか


囲碁理論への影響

新定石の誕生

第37手は、囲碁界で「肩ツキ」という手筋の再考を引き起こした。

伝統的な見解

  • 肩ツキは三路か四路に打つべき
  • 五路の肩ツキは効率が低すぎる
  • 孤立した石は攻撃されやすい

AlphaGo以降

  • 五路の肩ツキは特定の局面で最善の選択となり得る
  • 位置の「高低」より「効果」が重要
  • 各手の価値を全局的な視点から評価する必要がある

人間棋士の学び

第37手以降、多くのプロ棋士が同様の打ち方を試み始めた:

柯潔は2017年のいくつかの対局で五路の肩ツキを使用し、成功を収めた:

「AlphaGoは私に教えてくれた。私たちが『良くない』と思っていた多くの手は、実は私たちが理解していないだけだと」

朴廷桓も自身の対局でこの思考方法を取り入れた:

「重要なのは第37手という具体的な位置を覚えることではなく、新しい視点で盤面を見ることを学ぶことだ」

--- C21:AIがいかに人間の認知の境界を広げたか

囲碁AI訓練への示唆

第37手は囲碁AIの研究にも深い影響を与えた:

Policy Networkへの反省

なぜPolicy Networkは第37手に低い確率を与えたのか?それは人間の棋譜から学習したからであり、人間はほとんどこのような手を打たないからだ。

これは示している:教師あり学習(人間から学ぶこと)だけでは不十分だ。AIは自己探索を行い、人間が知らない良い手を発見する必要がある。

これが後のAlphaGo Zeroが純粋な自己対戦訓練を採用した理由の一つでもある。

MCTSへの肯定

第37手はMCTS深層探索の価値を証明した。直感(Policy Network)が一手を評価しなくても、深い分析によってその潜在的価値を発見できる。

この洞察は後に他の多くの分野にも応用された。


技術詳細:第37手の意思決定プロセスの再現

Policy Networkの入力特徴

第36手後、Policy Networkの入力には以下が含まれる:

特徴平面説明
1-8黒石の位置(過去8手)
9-16白石の位置(過去8手)
17現在の手番
18-48その他の特徴(呼吸点、アタリなど)

合計 48枚の19x19の特徴平面が入力テンソルを構成する。

--- C23:AI囲碁における特徴工学の重要性

Policy Networkの出力

Policy Networkは 19x19 = 361 次元の確率分布を出力する。

第37手の局面について:

# 上位5つの候補位置(簡略化)
{
"R3": 0.12, # 右下隅カカリ
"Q17": 0.10, # 右上隅
"C10": 0.09, # 左辺大場
"K15": 0.08, # 第37手の位置
"D16": 0.07, # 左上隅
# ... その他356の位置
}

MCTSの探索プロセス

AlphaGoはPUCT公式を使用して探索と活用のバランスを取る:

U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))

ここで:

  • Q(s,a):位置aの平均価値
  • P(s,a):Policy Networkが与える確率
  • N(s,a):その位置が探索された回数
  • c_puct:探索定数

第37手について、初期確率Pは低かったが、複数回のシミュレーションを経てQ値は継続的に上昇し、最終的に他の候補位置を上回った。

--- C25:PUCT公式がいかに非直感的な好手を発見するか

シミュレーション回数の影響

DeepMindチームは後に、第37手の「発見」には十分なシミュレーション回数が必要だと分析した:

シミュレーション回数最善の選択
100R3(右下隅)
1,000Q17(右上隅)
10,000K15(第37手)
100,000K15(より確実)

これは示している:深層探索は浅層探索では見つけられない好手を発見できる


哲学的考察:人間とAIの認知の違い

なぜ人間は第37手を思いつかなかったのか?

これは深遠な問いだ。考えられる理由には:

1. 経験の限界

人間の棋士の知識は先人の棋譜を学ぶことから来る。もし先人が一度も打ったことがない手があれば、私たちはそれを考慮しない。

2. 直感のバイアス

人間の直感は有用だが、限界もある。私たちの直感はある選択肢を「見えなく」させる。

3. 計算能力の違い

第37手の価値は深い計算を経て初めて発見できる。人間の計算能力には限界があり、AIのように数千通りの可能性をシミュレートすることはできない。

--- C27:認知バイアスとAIの超越

機械の「直感」とは何か?

AlphaGoに「直感」はあるのか?

ある意味では、Policy NetworkがAlphaGoの「直感」だ——ミリ秒単位で各位置の可能性を評価できる。

しかし、この「直感」は人間の直感とは異なる:

  • 人間の直感:経験とパターン認識から来る
  • AIの直感:大量のデータの統計学習から来る

興味深いことに、第37手は証明した:AIの「直感」はMCTSによって修正できる。これは、AIが自身の直感を「振り返り」、より良い選択を見つけられることを意味する。

人間はAIから何を学べるか?

第37手が人間の棋士に与えた最大の示唆はおそらく:

経験を枷にしてはならない

多くの「良くない」手は、単に私たちが理解していないだけかもしれない。心を開き、非伝統的な打ち方を試みる意志があれば、新しい可能性を発見できるかもしれない。

この示唆は囲碁だけでなく、人生の多くの領域にも当てはまる。


アニメーション対応表

本記事で扱う核心概念とアニメーション番号:

番号概念物理/数学的対応
--- C3伝統的棋理の価値判断ヒューリスティック関数
--- C5肩ツキの幾何学的特性空間関係
--- C7専門家の直感とAI評価のギャップ予測誤差
--- C9Policy Networkの出力分布Softmax確率
--- C11MCTSがPolicy Networkをどう修正するかベイズ更新
--- C13Value Networkの増分評価価値関数
--- C15全局価値関数の計算積分近似
--- C17ゲーム理論における強制的選択支配戦略
--- C19一手が対局全体の流れをどう変えたか分岐点
--- C21AIが人間の認知の境界をどう広げたか探索空間拡張
--- C23AI囲碁における特徴工学の重要性表現学習
--- C25PUCT公式が非直感的な好手をどう発見するか探索-活用トレードオフ
--- C27認知バイアスとAIの超越不偏推定

関連記事


インタラクティブ探索

Policy Network確率分布

以下のインタラクティブビジュアライゼーションを使用して、様々な局面でのPolicy Networkの出力を探索しよう:

載入中...

様々なプリセット局面を切り替えて、AIが各位置の着手確率をどう評価するか観察しよう。


参考資料

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. DeepMind Blog: "AlphaGo: The story so far"
  3. 『AlphaGo』ドキュメンタリー (2017)、監督 Greg Kohs
  4. 李世ドル vs AlphaGo 第二局公式棋譜
  5. Go4Go.net プロ棋譜分析
  6. 韓国棋院対局後技術報告