تحليل معمّق لـ "الحركة الإلهية"
في 10 مارس 2016، في المباراة الثانية بين AlphaGo ولي سيدول. الحركة 37، وضع AlphaGo حجرًا "كتفيًا" على الخط الخامس في الزاوية العلوية اليمنى.
أصبحت هذه الحركة تُعرف لاحقًا بـ "الحركة الإلهية" (Divine Move). لم تكتفِ بمساعدة AlphaGo على الفوز بالمباراة، بل غيّرت فهم البشرية للعبة الغو.
سيحلل هذا المقال هذه الحركة من زوايا متعددة: خلفية المباراة، نظرية اللعبة التقليدية، ردود فعل الخبراء، منظور الذكاء الاصطناعي، وتأثيرها طويل المدى على نظرية الغو.
استعراض موقف المباراة
بداية المباراة الثانية
بعد خسارته في المباراة الأولى، أجرى لي سيدول تعديلات في المباراة الثانية. اختار اللعب بالأحجار البيضاء والتحرك ثانيًا، آملاً أن يراقب ميول AlphaGo في الافتتاح قبل وضع استراتيجيته.
مرحلة الافتتاح:
- أسود 1: نقطة النجمة في الزاوية العلوية اليمنى
- أبيض 2: نقطة النجمة في الزاوية السفلية اليسرى
- أسود 3 - أبيض 4: كل طرف يحتل زاوية
حتى الحركة 36، تطور الموقف بشكل طبيعي. كان AlphaGo يلعب بالأسود، وقد خاض معركة محلية في الزاوية العلوية اليمنى. كان للأبيض (لي سيدول) نفوذ على الجانب الأيمن، بينما كان للأسود إمكانية أرض على الجانب العلوي.
الموقف بعد الحركة 36
لننظر إلى حالة اللوحة بعد الحركة 36:
| A | B | C | D | E | F | G | H | J | K | L | M | N | O | P | Q | R | S | T | ||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 19 | ||||||||||||||||||||
| 18 | ||||||||||||||||||||
| 17 | ○ | ● | ||||||||||||||||||
| 16 | + | + | + | |||||||||||||||||
| 15 | ● | |||||||||||||||||||
| 14 | ○ | نفوذ الأبيض | ||||||||||||||||||
| 13 | ||||||||||||||||||||
| 12 | ||||||||||||||||||||
| 11 | ||||||||||||||||||||
| 10 | + | + | + | |||||||||||||||||
| 9 | ||||||||||||||||||||
| 8 | ||||||||||||||||||||
| 7 | ||||||||||||||||||||
| 6 | ||||||||||||||||||||
| 5 | ||||||||||||||||||||
| 4 | + | + | + | |||||||||||||||||
| 3 | ○ | ● | ||||||||||||||||||
| 2 | ||||||||||||||||||||
| 1 |
رسم توضيحي مبسط، الموقف الفعلي أكثر تعقيدًا
ملاحظات رئيسية:
- الأبيض لديه نفوذ خارجي على الجانب الأيمن
- الأسود لديه إمكانية أرض على الجانب العلوي
- المعركة في الزاوية العلوية اليمنى انتهت مؤقتًا
في هذه اللحظة، حان دور الأسود (AlphaGo) للعب.
تحليل اللعب التقليدي
توقعات اللاعبين المحترفين
قبل الحركة 37، كان اللاعبون المحترفون في غرفة التعليق يناقشون بحماس. كانوا يتوقعون عمومًا أن يختار الأسود أحد الخيارات التالية:
الخيار أ: الاقتراب من الزاوية السفلية اليمنى
هذا هو الاختيار "الطبيعي" الأكثر. يمكن للأسود:
- احتلال آخر نقطة كبيرة (الزاوية السفلية اليمنى)
- الحفاظ على توازن الموقف
- اتباع القيمة التقليدية "الزوايا ذهب، الحواف فضة، الوسط عشب"
الخيار ب: توسيع المنطقة العلوية
يمكن للأسود أيضًا أن يمتد اثنين أو ثلاثة على الجانب العلوي، لتعزيز منطقة نفوذه. هذا يمكن أن:
- يحوّل إمكانية الجانب العلوي إلى أرض
- يحد من مساحة تطوير الأبيض
الخيار ج: الدخول في الوسط
اعتقد بعض اللاعبين أن الأسود قد يلعب في الوسط، مقيدًا نفوذ الأبيض على الجانب الأيمن. رغم أن هذا ليس الخيار الأكثر شيوعًا، إلا أنه منطقي استراتيجيًا.
🎬 C3: تقييم القيمة في نظرية اللعبة التقليدية
الخيار الذي لم يتوقعه أحد
ومع ذلك، اختار AlphaGo موقعًا لم يفكر فيه أحد تقريبًا:
E5 (الكتف على الخط الخامس)
وقعت هذه الحركة على النصف الأيمن من اللوحة، قريبة من الوسط، وهي حركة "كتفية" ضد نفوذ الأبيض على الجانب الأيمن.
الحركة 37: الكتف على الخط الخامس
أين هذه الحركة؟
| A | B | C | D | E | F | G | H | J | K | L | M | N | O | P | Q | R | S | T | ||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 19 | ||||||||||||||||||||
| 18 | ||||||||||||||||||||
| 17 | ○ | ● | ||||||||||||||||||
| 16 | + | + | + | |||||||||||||||||
| 15 | 37 | ● | الحركة 37 | |||||||||||||||||
| 14 | ○ | |||||||||||||||||||
| 13 | ||||||||||||||||||||
| 12 |
الحركة 37 وُضعت في موقع K15 (أو J5، حسب نظام الإحداثيات المستخدم).
ما هو "الكتف"؟
"الكتف" هي تقنية في لعبة الغو، تشير إلى الاقتراب القطري من حجر الخصم. خصائصها:
- لا اتصال مباشر: تحافظ على مسافة خطوة واحدة من أحجار الخصم
- تدمير البنية: تعطل التطوير المتوقع للخصم
- صعوبة الرد: مهما كان رد الخصم، سيكون هناك ثمن
تقليديًا، يُلعب الكتف على الخط الثالث أو الرابع. الكتف على الخط الخامس نادر للغاية، لأن:
- الموقع مرتفع جدًا: الخط الخامس قريب من الوسط، يُعتقد تقليديًا أنه أقل كفاءة
- عرضة للهجوم: الأحجار المعزولة يمكن أن تصبح هدفًا للهجوم
- قيمة غير واضحة: ليس لها قيمة أرض واضحة مثل الزوايا والحواف
🎬 C5: الخصائص الهندسية للكتف
ردود فعل الخبراء الفورية
الصدمة في غرفة التعليق
لحظة سقوط الحركة 37، ساد صمت قصير في غرفة التعليق.
التعليق الكوري (كيم سونغ-ريونغ 9 دان):
"هذا... ما هذا؟ هذه الحركة على الخط الخامس؟ لا أفهم. هذا خطأ بالتأكيد، أليس كذلك؟"
التعليق الصيني (غو لي 9 دان):
"لا أفهم هذه الحركة. لو كان أحد طلابي يلعب هكذا، لانتقدته بشدة."
التعليق الأمريكي (مايكل ريدموند 9 دان):
"Very unusual move. I don't think any human would play this."
(حركة غير عادية جدًا. لا أعتقد أن أي إنسان سيلعبها.)
تعليقات اللاعبين المحترفين المباشرة
على منصات البث المختلفة، علّق اللاعبون المحترفون:
كي جي (المصنف الأول عالميًا آنذاك):
"لا أستطيع فهم نية هذه الحركة. إذا فاز AlphaGo، سأدرسها بجدية."
بارك جونغ-هوان (لاعب كوري من الطراز الأول):
"هذه الحركة غريبة جدًا. هل هناك مشكلة في البرنامج؟"
مي يو-تينغ (بطل العالم الصيني):
"الكتف على الخط الخامس؟ لم أرَ هذا النوع من اللعب من قبل."
🎬 C7: الفجوة بين حدس الخبراء وتقييم الذكاء الاصطناعي
"احتمال واحد من عشرة آلاف"
بعد المباراة، كشف فريق DeepMind عن رقم مذهل:
"وفقًا لتحليلنا، إذا واجه لاعب محترف نفس الموقف، فإن احتمال اختياره لموقع الحركة 37 هو حوالي واحد من عشرة آلاف."
بمعنى آخر، في نظام معرفة الغو البشري، هذه الحركة كانت تقريبًا خيارًا "غير موجود".
التفسير من منظور الذكاء الاصطناعي
توزيع احتمالات شبكة السياسة
لننظر كيف قيّمت شبكة السياسة في AlphaGo هذا الموقف:
يوضح الرسم أعلاه تقييم AlphaGo لاحتمالات اللعب في كل موقع.
ملاحظات رئيسية:
- موقع الحركة 37: احتمال حوالي 8%، ليس الأعلى
- الخيارات التقليدية (مثل الزاوية السفلية اليمنى): احتمال حوالي 12%
- مواقع مرشحة أخرى: موزعة في مناطق مختلفة
المثير للاهتمام أن الحركة 37 لم تكن الخيار الأعلى احتمالاً في تقييم شبكة السياسة. فلماذا اختارها AlphaGo؟
🎬 C9: توزيع مخرجات شبكة السياسة
التقييم العميق لـ MCTS
الإجابة تكمن في البحث في شجرة مونتي كارلو (MCTS).
شبكة السياسة توفر فقط "الحدس"، القرار الحقيقي يأتي من محاكاة MCTS العميقة. يحاكي AlphaGo آلاف المسارات المستقبلية المحتملة قبل اتخاذ القرار.
لحركة 37، كانت عملية تقييم MCTS كالتالي:
الموقع K15 (الحركة 37):
├── المحاكاة 1: فوز الأسود (+0.3)
├── المحاكاة 2: فوز الأسود (+0.5)
├── المحاكاة 3: فوز الأسود (+0.2)
├── ...
└── متوسط معدل الفوز: 58%
الموقع R3 (الاقتراب من الزاوية السفلية اليمنى):
├── المحاكاة 1: فوز الأسود (+0.1)
├── المحاكاة 2: فوز الأبيض (-0.2)
├── المحاكاة 3: فوز الأسود (+0.2)
├── ...
└── متوسط معدل الفوز: 52%
رغم أن "الاحتمال الحدسي" للزاوية السفلية اليمنى كان أعلى، بعد المحاكاة العميقة، كان معدل الفوز المتوقع للحركة 37 أعلى.
🎬 C11: كيف يصحح MCTS حكم شبكة السياسة
التقييم الشامل لشبكة القيمة
شبكة القيمة قيّمت قيمة الحركة 37 من منظور شامل:
معدل الفوز قبل الحركة 37: حوالي 52% (الأسود متقدم قليلاً)
معدل الفوز بعد الحركة 37: حوالي 58% (الأسود متقدم بوضوح)
هذا يعني أن الحركة 37 رفعت معدل الفوز المتوقع لـ AlphaGo بـ 6 نقاط مئوية.
هذا الارتفاع كبير جدًا في لعبة الغو. عادةً، حركة جيدة ترفع معدل الفوز بـ 2-3% تُعتبر جيدة جدًا.
🎬 C13: التقييم التراكمي لشبكة القيمة
تحليل نظرية اللعبة: لماذا الكتف على الخط الخامس؟
من المنظور المحلي
ظاهريًا، تبدو الحركة 37 غير كفؤة:
- الموقع مرتفع جدًا: الخط الخامس أقرب للوسط من الخط الرابع أو الثالث
- لا أرض: ليس لها قيمة أرض مباشرة مثل الزوايا والحواف
- عرضة للهجوم: الأحجار المعزولة قد تتعرض لهجوم الأبيض
لكن إذا حللنا بعناية، لهذه الحركة عدة فوائد دقيقة:
- تدمير نفوذ الأبيض: كان الأبيض يخطط للتطوير على الجانب الأيمن، الحركة 37 أفسدت هذه الخطة
- بناء تأثير: رغم أنها لا تحيط بأرض، فهي تؤسس وجودًا في الوسط
- زيادة التعقيد: تخلق موقفًا معقدًا، مفيدًا للطرف الأقوى حسابيًا
من المنظور الشامل
قيمة هذه الحركة الحقيقية تُفهم من المنظور الشامل:
التوازن بين السماكة والأرض
نظرية الغو التقليدية تقول "الزوايا ذهب، الحواف فضة، الوسط عشب" — الزوايا أقيم، والوسط أقل قيمة. لكن الحركة 37 تحدت هذا المفهوم.
تقييم AlphaGo أظهر: في هذا الموقف المحدد، تأثير الوسط أقيم من أرض الحواف والزوايا.
هذا لأن:
- الأسود لديه أساس كافٍ من الأرض
- نفوذ الأبيض على الجانب الأيمن سيصبح قويًا جدًا إذا تطور
- تقييد الأبيض أهم من التوسع الذاتي
🎬 C15: حساب دالة القيمة الشاملة
قيمة "المبادرة"
الحركة 37 لها فائدة مُقللة من قيمتها: إنها تحافظ على "المبادرة".
في لعبة الغو، "المبادرة" تعني امتلاك زمام السيطرة. بعد الحركة 37، اضطر الأبيض للرد، مما سمح للأسود بالاستمرار في توجيه مسار اللعبة.
لو اختار الأسود الاقتراب "الطبيعي" من الزاوية السفلية اليمنى، لربما لعب الطرفان جوسيكي (نمطًا معروفًا) في الزاوية، ثم توازن الموقف. لكن الحركة 37 كسرت هذا التوازن، جاعلة الموقف مليئًا بعدم اليقين — وهذا بالضبط ما يتفوق فيه AlphaGo.
معضلة لي سيدول في الرد
بعد الحركة 37، فكّر لي سيدول لوقت طويل. المعضلة التي واجهها:
إذا رد مباشرة (مثل القفز أو الطيران):
- يعترف بقيمة الحركة 37
- يسمح للأسود بتحقيق هدفه في تدمير نفوذ الأبيض
إذا تجاهلها:
- الأسود قد يطور الوسط أكثر
- نفوذ الأبيض على الجانب الأيمن يصعب تحويله لأرض
في النهاية، اختار لي سيدول الرد. لكن مهما كان اختياره، الحركة 37 حققت هدفها بالفعل.
🎬 C17: الخيارات الإجبارية في نظرية الألعاب
التطورات اللاحقة: من الحركة 37 إلى النصر
تطور الوسط
بعد الحركة 37، دخلت المباراة معركة وسط معقدة.
التطورات الرئيسية:
- الحركات 40-50: معركة اتصال مكثفة على الجانب الأيمن
- الحركات 50-70: استغل AlphaGo التأثير الذي بناه بالحركة 37، وحصل على أفضلية في الوسط
- الحركات 70-100: حوّل الأسود تدريجيًا الأفضلية إلى أرض
بحلول الحركة 100 تقريبًا، كان تقدم AlphaGo واضحًا جدًا. رغم محاولات لي سيدول للهجوم المضاد، لم يستطع قلب الموقف.
النتيجة النهائية
AlphaGo فاز في منتصف اللعبة
في هذه المباراة، كانت الحركة 37 السبب الرئيسي للفوز. التحليل بعد المباراة أظهر أنه بدون الحركة 37، كان الموقف سيكون أقرب، وربما حصل الأبيض على الأفضلية.
🎬 C19: كيف تغيّر حركة واحدة مسار اللعبة بأكملها
التأثير على نظرية الغو
ولادة جوسيكي جديدة
أثارت الحركة 37 إعادة التفكير في تقنية "الكتف" في عالم الغو.
الرأي التقليدي:
- الكتف يُلعب على الخط الثالث أو الرابع
- الكتف على الخط الخامس كفاءته منخفضة جدًا
- الأحجار المعزولة عرضة للهجوم
بعد AlphaGo:
- الكتف على الخط الخامس هو الخيار الأفضل في مواقف معينة
- "ارتفاع" الموقع أقل أهمية من "التأثير"
- يجب تقييم قيمة كل حركة من منظور شامل
تعلم اللاعبين البشر
بعد الحركة 37، بدأ العديد من اللاعبين المحترفين تجربة حركات مماثلة:
كي جي استخدم الكتف على الخط الخامس في عدة مباريات عام 2017، ونجح:
"علمني AlphaGo أن الكثير من الحركات التي نعتبرها 'سيئة' هي فقط حركات لا نفهمها."
بارك جونغ-هوان استلهم أيضًا هذا النمط من التفكير في مبارياته:
"المهم ليس تذكر موقع الحركة 37 بالتحديد، بل تعلم النظر للوحة بعيون جديدة."
🎬 C21: كيف يوسّع الذكاء الاصطناعي حدود الإدراك البشري
دروس لتدريب ذكاء الغو الاصطناعي
للحركة 37 أيضًا تأثير عميق على أبحاث ذكاء الغو الاصطناعي:
تأمل في شبكة السياسة:
لماذا أعطت شبكة السياسة الحركة 37 احتمالاً منخفضًا؟ لأنها تعلمت من سجلات البشر، والبشر نادرًا ما يلعبون هكذا.
هذا يُظهر: التعلم الخاضع للإشراف (من البشر) وحده غير كافٍ. يحتاج الذكاء الاصطناعي للاستكشاف الذاتي ليكتشف حركات جيدة لا يعرفها البشر.
هذا أحد الأسباب التي جعلت AlphaGo Zero لاحقًا يعتمد على التدريب باللعب الذاتي فقط.
تأكيد على MCTS:
أثبتت الحركة 37 قيمة البحث العميق لـ MCTS. حتى لو كان الحدس (شبكة السياسة) لا يفضل حركة، التحليل العميق يمكن أن يكتشف قيمتها الكامنة.
هذه الرؤية طُبقت لاحقًا في مجالات أخرى كثيرة.
التفاصيل التقنية: إعادة إنتاج عملية اتخاذ قرار الحركة 37
ميزات إدخال شبكة السياسة
بعد الحركة 36، تضمنت مدخلات شبكة السياسة:
| مستوى الميزات | الوصف |
|---|---|
| 1-8 | مواقع الأسود (آخر 8 حركات) |
| 9-16 | مواقع الأبيض (آخر 8 حركات) |
| 17 | دور من |
| 18-48 | ميزات أخرى (الحريات، الأتاري، إلخ) |
المجموع 48 مستوى ميزات 19×19، تشكل موتر الإدخال.
🎬 C23: أهمية هندسة الميزات في ذكاء الغو الاصطناعي
مخرجات شبكة السياسة
شبكة السياسة تُخرج توزيع احتمالات بأبعاد 19×19 = 361.
لموقف الحركة 37:
# أفضل 5 مواقع مرشحة (مبسط)
{
"R3": 0.12, # الاقتراب من الزاوية السفلية اليمنى
"Q17": 0.10, # الزاوية العلوية اليمنى
"C10": 0.09, # نقطة كبيرة على اليسار
"K15": 0.08, # موقع الحركة 37
"D16": 0.07, # الزاوية العلوية اليسرى
# ... 356 موقعًا آخر
}
عملية استكشاف MCTS
يستخدم AlphaGo صيغة PUCT للموازنة بين الاستكشاف والاستغلال:
U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))
حيث:
Q(s,a): متوسط قيمة الموقع aP(s,a): الاحتمال من شبكة السياسةN(s,a): عدد مرات استكشاف هذا الموقعc_puct: ثابت الاستكشاف
للحركة 37، رغم أن الاحتمال الأولي P منخفض، بعد العديد من المحاكاات، ارتفعت قيمة Q باستمرار، متجاوزة المواقع المرشحة الأخرى.
🎬 C25: كيف تكتشف صيغة PUCT الحركات الجيدة غير البديهية
تأثير عدد المحاكاات
حلل فريق DeepMind لاحقًا أن "اكتشاف" الحركة 37 يتطلب عددًا كافيًا من المحاكاات:
| عدد المحاكاات | الخيار الأفضل |
|---|---|
| 100 | R3 (الزاوية السفلية اليمنى) |
| 1,000 | Q17 (الزاوية العلوية اليمنى) |
| 10,000 | K15 (الحركة 37) |
| 100,000 | K15 (أكثر تأكيدًا) |
هذا يُظهر: البحث العميق يمكن أن يكتشف حركات جيدة لا يجدها البحث السطحي.
تأمل فلسفي: الفرق الإدراكي بين البشر والذكاء الاصطناعي
لماذا لم يفكر البشر في الحركة 37؟
هذا سؤال عميق. الأسباب المحتملة تشمل:
1. محدودية الخبرة
معرفة اللاعبين البشر تأتي من دراسة سجلات السابقين. إذا لم يلعب السابقون نوعًا معينًا من الحركات، لن نفكر فيها.
2. تحيز الحدس
حدس البشر مفيد، لكنه محدود أيضًا. حدسنا يجعلنا "لا نرى" بعض الخيارات.
3. فرق القدرة الحسابية
قيمة الحركة 37 تتطلب حسابًا عميقًا لاكتشافها. قدرة البشر الحسابية محدودة، لا يمكننا محاكاة آلاف الاحتمالات مثل الذكاء الاصطناعي.
🎬 C27: التحيز الإدراكي وتجاوز الذكاء الاصطناعي
ما هو "حدس" الآلة؟
هل لدى AlphaGo "حدس"؟
من ناحية ما، شبكة السياسة هي "حدس" AlphaGo — يمكنها تقييم إمكانية كل موقع في أجزاء من الثانية.
لكن هذا "الحدس" يختلف عن حدس البشر:
- حدس البشر: يأتي من الخبرة والتعرف على الأنماط
- حدس الذكاء الاصطناعي: يأتي من التعلم الإحصائي من كميات ضخمة من البيانات
المثير للاهتمام، الحركة 37 أثبتت أن: "حدس" الذكاء الاصطناعي يمكن تصحيحه بواسطة MCTS. هذا يعني أن الذكاء الاصطناعي يمكنه "مراجعة" حدسه، وإيجاد خيارات أفضل.
ماذا يمكن للبشر أن يتعلموا من الذكاء الاصطناعي؟
أكبر درس من الحركة 37 للاعبين البشر قد يكون:
لا تدع الخبرة تصبح قيدًا
كثير من الحركات "السيئة" قد تكون فقط حركات لا نفهمها. فتح العقل، والاستعداد لتجربة حركات غير تقليدية، قد يكشف عن إمكانيات جديدة.
هذا الدرس لا ينطبق على الغو فقط، بل على مجالات كثيرة في الحياة.
ربط الرسوم المتحركة
المفاهيم الأساسية في هذا المقال وأرقام الرسوم المتحركة المقابلة:
| الرقم | المفهوم | المقابل في الفيزياء/الرياضيات |
|---|---|---|
| 🎬 C3 | تقييم القيمة في نظرية اللعبة التقليدية | دالة الاستدلال |
| 🎬 C5 | الخصائص الهندسية للكتف | العلاقات المكانية |
| 🎬 C7 | الفجوة بين حدس الخبراء وتقييم الذكاء الاصطناعي | خطأ التنبؤ |
| 🎬 C9 | توزيع مخرجات شبكة السياسة | احتمالات Softmax |
| 🎬 C11 | كيف يصحح MCTS شبكة السياسة | التحديث البايزي |
| 🎬 C13 | التقييم التراكمي لشبكة القيمة | دالة القيمة |
| 🎬 C15 | حساب دالة القيمة الشاملة | التقريب التكاملي |
| 🎬 C17 | الخيارات الإجبارية في نظرية الألعاب | الاستراتيجية المهيمنة |
| 🎬 C19 | كيف تغيّر حركة واحدة مسار اللعبة | نقطة التفرع |
| 🎬 C21 | كيف يوسّع الذكاء الاصطناعي حدود الإدراك البشري | توسيع فضاء البحث |
| 🎬 C23 | أهمية هندسة الميزات في ذكاء الغو | تعلم التمثيل |
| 🎬 C25 | كيف تكتشف صيغة PUCT الحركات الجيدة غير البديهية | موازنة الاستكشاف والاستغلال |
| 🎬 C27 | التحيز الإدراكي وتجاوز الذكاء الاصطناعي | التقدير غير المتحيز |
قراءات إضافية
- المقال السابق: مراجعة المباريات الرئيسية — التاريخ الكامل لمباريات فان هوي ولي سيدول وكي جي
- المقال التالي: لماذا الغو صعب؟ — فهم التعقيد الحسابي للغو
- تفاصيل تقنية: شرح شبكة السياسة — فهم عميق لشبكة الحدس
- قراءة متقدمة: شرح صيغة PUCT — رياضيات الاستكشاف والاستغلال
استكشاف تفاعلي
توزيع احتمالات شبكة السياسة
استخدم التصور التفاعلي أدناه لاستكشاف مخرجات شبكة السياسة في مواقف مختلفة:
جرّب التبديل بين المواقف المُعدة مسبقًا، ولاحظ كيف يقيّم الذكاء الاصطناعي احتمالات اللعب في كل موقع.
المراجع
- Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
- DeepMind Blog: "AlphaGo: The story so far"
- فيلم وثائقي AlphaGo (2017)، إخراج Greg Kohs.
- سجل المباراة الرسمي: لي سيدول ضد AlphaGo المباراة الثانية
- Go4Go.net تحليل سجلات محترف
- التقرير التقني بعد المباراة من اتحاد الغو الكوري