نظرة عامة على AlphaGo Zero
في أكتوبر 2017، نشرت DeepMind نتيجة أذهلت عالم الذكاء الاصطناعي: AlphaGo Zero بدأ التدريب من حالة عشوائية تماماً دون استخدام أي سجلات بشرية، وفي ثلاثة أيام فقط تجاوز AlphaGo الأصلي الذي هزم لي سيدول، وفاز بنتيجة 100:0.
هذا ليس مجرد تقدم في الأرقام. إنه يمثل نموذجاً جديداً تماماً: الذكاء الاصطناعي لا يحتاج المعرفة البشرية، يمكنه اكتشاف كل شيء من الصفر.
لماذا لا يحتاج سجلات بشرية؟
قيود السجلات البشرية
عملية تدريب AlphaGo الأصلي كانت على مرحلتين:
- التعلم الإشرافي: تدريب Policy Network باستخدام 30 مليون مباراة بشرية
- التعلم المعزز: التحسين الإضافي من خلال اللعب الذاتي
هذه الطريقة لها عدة مشاكل جوهرية:
1. السجلات البشرية لها سقف
قوة لعب اللاعبين البشريين لها حدود، السجلات تحتوي على فهم البشر، وأيضاً أخطاء البشر وتحيزاتهم. عندما يتعلم الذكاء الاصطناعي من السجلات البشرية، فإنه يتعلم:
- الحركات التي يعتقد البشر أنها جيدة (لكنها ليست بالضرورة الأمثل)
- أنماط تفكير البشر (لكنها قد تحد من الابتكار)
- أخطاء البشر (يتم تعلمها كعينات صحيحة)
2. عنق الزجاجة في التعلم الإشرافي
هدف التعلم الإشرافي هو "تقليد البشر" — التنبؤ بالحركة التي سيلعبها اللاعب البشري. هذا يعني أن سقف قدرة الذكاء الاصطناعي محدود بقدرة اللاعبين البشريين.
تماماً كمتدرب يمكنه فقط تقليد أستاذه، ولا يستطيع أبداً تجاوز أستاذه.
3. تكلفة جمع البيانات
السجلات البشرية عالية الجودة تحتاج سنوات عديدة للتراكم، وهي موجودة فقط في ألعاب ذات تاريخ طويل مثل الغو. إذا أردنا تطبيق الذكاء الاصطناعي على مجالات جديدة (مثل التنبؤ ببنية البروتينات)، فلا توجد "سجلات خبراء بشريين" للاستخدام.
اختراق Zero
AlphaGo Zero تخطى مرحلة التعلم الإشرافي تماماً، وبدأ اللعب الذاتي مباشرة من تهيئة عشوائية. هذا حل جميع المشاكل المذكورة:
| المشكلة | AlphaGo الأصلي | AlphaGo Zero |
|---|---|---|
| سقف المعرفة البشرية | محدود بجودة السجلات | لا يوجد هذا القيد |
| هدف التعلم | تقليد البشر | تعظيم نسبة الفوز |
| متطلبات البيانات | 30 مليون سجل | 0 |
| قابلية التعميم | الغو فقط | قابل للتعميم على مجالات أخرى |
هذا تحول جذري في النموذج: من "تعلم المعرفة البشرية" إلى "اكتشاف المعرفة من المبادئ الأولى".
المقارنة مع AlphaGo الأصلي: 100:0
الفوز الساحق
جعلت DeepMind AlphaGo Zero المدرب يلعب ضد إصدارات مختلفة من AlphaGo:
| الخصم | نتيجة AlphaGo Zero |
|---|---|
| AlphaGo Fan (الإصدار الذي هزم فان هوي) | 100:0 |
| AlphaGo Lee (الإصدار الذي هزم لي سيدول) | 100:0 |
| AlphaGo Master (إصدار 60 انتصاراً متتالياً) | 89:11 |
100:0 — هذا يعني أنه في 100 مباراة، لم يستطع AlphaGo الأصلي الفوز ولو مباراة واحدة.
موارد أقل، قوة أكبر
ليس فقط الفوز، AlphaGo Zero حقق قوة أكبر بموارد أقل:
| المؤشر | AlphaGo Lee | AlphaGo Zero |
|---|---|---|
| وقت التدريب | عدة أشهر | 40 يوماً (3 أيام لتجاوز AlphaGo Lee) |
| عدد المباريات التدريبية | 30 مليون سجل بشري + لعب ذاتي | 4.9 مليون لعب ذاتي |
| عدد TPUs (التدريب) | 50+ | 4 |
| عدد TPUs (الاستنتاج) | 48 | 4 |
| ميزات الإدخال | 48 مستوى | 17 مستوى |
| الشبكة العصبية | شبكتا SL + RL | شبكة مزدوجة الرأس واحدة |
هذا تحسين مذهل في الكفاءة: الموارد أقل بأكثر من 10 مرات، لكن قوة اللعب أعلى بكثير.
لماذا Zero أقوى؟
يمكن فهم قوة AlphaGo Zero الأكبر من عدة زوايا:
1. التعلم بدون تحيز
AlphaGo الأصلي تعلم من السجلات البشرية، وورث تحيزات البشر. على سبيل المثال، اللاعبون البشريون قد يبالغون في أهمية بعض الجوسيكي، أو يقيّمون بعض الأوضاع بشكل خاطئ.
AlphaGo Zero ليس لديه هذه الأعباء. بدأ من صفحة بيضاء، يتعلم فقط من خلال نتائج الفوز والخسارة ما هي الحركات الجيدة. هذا سمح له باكتشاف حركات لم يفكر فيها البشر أبداً.
2. هدف تعلم متسق
تدريب AlphaGo الأصلي كان له هدفان مختلفان:
- التعلم الإشرافي: تعظيم دقة التنبؤ بحركات البشر
- التعلم المعزز: تعظيم نسبة الفوز
هذان الهدفان قد يتعارضان. AlphaGo Zero له هدف واحد فقط: تعظيم نسبة الفوز. هذا يجعل عملية التعلم أكثر اتساقاً وفعالية.
3. بنية أبسط
AlphaGo الأصلي استخدم Policy Network و Value Network منفصلين. AlphaGo Zero يستخدم شبكة مزدوجة الرأس واحدة (انظر المقال التالي للتفاصيل)، مما يسمح بمشاركة تمثيل الميزات، ويحسن كفاءة التعلم.
ميزات الإدخال المبسطة: من 48 إلى 17
48 مستوى ميزات في AlphaGo الأصلي
إدخال الشبكة العصبية في AlphaGo الأصلي كان يتضمن 48 مستوى ميزات 19x19، تشفر كمية كبيرة من الميزات المصممة بشرياً:
| الفئة | عدد الميزات | المحتوى |
|---|---|---|
| موقع الأحجار | 3 | أحجار سوداء، أحجار بيضاء، نقاط فارغة |
| الحريات | 8 | سلاسل بـ 1-8 حريات |
| الأسر | 8 | يمكن أسر 1-8 حجر |
| الكو | 1 | موقع الكو |
| المسافة من الحافة | 4 | من الخط الأول إلى الرابع |
| قانونية الحركة | 1 | أين يمكن اللعب |
| الحالة التاريخية | 8 | مواقع آخر 8 حركات |
| الدور | 1 | الأسود أو الأبيض |
| أخرى | 14 | المطاردة، العيون، إلخ |
هذه الـ 48 ميزة صممها خبراء الغو بعناية، تحتوي على كمية كبيرة من المعرفة المجالية.
17 مستوى ميزات في AlphaGo Zero
AlphaGo Zero بسّط الإدخال بشكل كبير، يستخدم 17 مستوى ميزات فقط:
| رقم المستوى | المحتوى | العدد |
|---|---|---|
| 1-8 | موقع الأحجار السوداء (آخر 8 حركات) | 8 |
| 9-16 | موقع الأحجار البيضاء (آخر 8 حركات) | 8 |
| 17 | الدور الحالي (كلها 1 أو كلها 0) | 1 |
هذه الـ 17 ميزة تتضمن فقط:
- حالة اللوحة الحالية: كل موقع به حجر أسود، أبيض، أو فارغ
- معلومات تاريخية: حالة اللوحة في آخر 8 حركات
- معلومات الدور: دور من الآن
لا حريات، لا حكم مطاردة، لا مسافة من الحافة — كل هذه "المعرفة بالغو" تُترك للشبكة العصبية لتتعلمها بنفسها.
لماذا التبسيط جيد؟
1. ترك الشبكة تكتشف الميزات بنفسها
الميزات اليدوية المعقدة قد تفوّت معلومات مهمة، أو تشفّر افتراضات خاطئة. ترك الشبكة العصبية تتعلم من البيانات الخام، قد تكتشف تمثيلات ميزات أفضل.
في الواقع، AlphaGo Zero تعلم جميع الميزات التي صممها البشر (الحريات، المطاردة، إلخ)، وتعلم أيضاً بعض الأنماط التي لم يكن البشر واعين بها صراحة.
2. قابلية تعميم أفضل
كثير من الـ 48 ميزة خاصة بالغو (مثل المطاردة، مسافة الحافة). الـ 17 ميزة المبسطة عامة — أي لعبة لوحة يمكن تشفيرها بطريقة مماثلة.
هذا وضع الأساس لـ AlphaZero اللاحق (ذكاء ألعاب عام).
3. تقليل الأخطاء البشرية
الميزات المصممة يدوياً قد تحتوي على تعريفات خاطئة أو غير كاملة. تبسيط الإدخال يزيل إمكانية هذه المشاكل.
بنية الشبكة الواحدة
تصميم الشبكتين في النسخة الأصلية
AlphaGo الأصلي استخدم شبكتين عصبيتين مستقلتين:
Policy Network: الإدخال → CNN → احتمالية 19x19 للحركة
Value Network: الإدخال → CNN → تقدير نسبة الفوز (-1 إلى 1)
هاتان الشبكتان:
- لهما بنيات مختلفة (عدد الطبقات، عدد القنوات يختلف قليلاً)
- تُدربان بشكل مستقل (Policy أولاً، ثم Value)
- لا تشتركان في أي معاملات
شبكة مزدوجة الرأس في Zero
AlphaGo Zero يستخدم شبكة واحدة، لكن برأسين إخراج (heads):
الإدخال → عمود ResNet المشترك → Policy Head → احتمالية 19x19 للحركة
→ Value Head → تقدير نسبة الفوز
الرأسان يشتركان في نفس عمود ResNet (انظر المقال التالي: الشبكة مزدوجة الرأس وشبكة الباقي للتفاصيل)، وهذا يجلب عدة فوائد:
1. كفاءة المعاملات
العمود المشترك يعني أن معظم المعاملات تُستخدم من قبل المهمتين. هذا يقلل إجمالي عدد المعاملات، ويقلل خطر الإفراط في التكيف.
2. مشاركة الميزات
"أين يجب اللعب" (Policy) و"من سيفوز" (Value) يحتاجان فهم أنماط لوحة مشابهة. العمود المشترك يسمح بتعلم واستخدام هذه الميزات من قبل المهمتين في نفس الوقت.
3. استقرار التدريب
التدريب المشترك يجعل إشارات التدرج تأتي من مصدرين، مما يوفر إشراف أغنى، ويجعل التدريب أكثر استقراراً.
قوة شبكة الباقي
عمود AlphaGo Zero يستخدم شبكة باقي بـ 40 طبقة (ResNet)، أعمق بكثير من CNN بـ 13 طبقة في AlphaGo الأصلي.
اتصالات الباقي (skip connections) تسمح للشبكات العميقة بالتدريب بفعالية، وتتجنب مشكلة تلاشي التدرج. هذه تقنية اختراقية من مسابقة ImageNet 2015، طُبقت بنجاح في AlphaGo Zero على مجال الغو.
تحسين كفاءة التدريب
النمو الأسي للعب الذاتي
عملية تدريب AlphaGo Zero أظهرت كفاءة مذهلة:
| وقت التدريب | تقييم ELO | يعادل |
|---|---|---|
| 0 ساعة | 0 | لعب عشوائي |
| 3 ساعات | ~1000 | اكتشاف القواعد الأساسية |
| 12 ساعة | ~3000 | اكتشاف الجوسيكي |
| 36 ساعة | ~4500 | تجاوز إصدار فان هوي |
| 60 ساعة | ~5200 | تجاوز إصدار لي سيدول |
| 72 ساعة | ~5400 | تجاوز AlphaGo الأصلي |
| 40 يوماً | ~5600 | الإصدار الأقوى |
تجاوز البشر في ثلاثة أيام، تجاوز الذكاء الاصطناعي الذي استغرق أشهراً في التدريب في ثلاثة أيام — هذا تحسين أسي في الكفاءة.
لماذا بهذه السرعة؟
1. إرشاد بحث أقوى
MCTS في AlphaGo Zero موجه بالكامل بالشبكة العصبية، لم يعد يستخدم استراتيجية اللعب السريع (rollout). هذا يجعل البحث أكثر كفاءة ودقة.
2. لعب ذاتي أسرع
بما أنه يحتاج شبكة واحدة فقط (بدلاً من اثنتين)، تكلفة حساب كل مباراة لعب ذاتي أقل. هذا يعني إمكانية توليد بيانات تدريب أكثر في نفس الوقت.
3. تعلم أكثر فعالية
التدريب المشترك للشبكة مزدوجة الرأس يجعل معلومات كل مباراة تُستخدم بشكل أكثر فعالية. تدرجات Policy و Value تقوي بعضها البعض، وتسرع التقارب.
المقارنة مع التعلم البشري
كم يحتاج اللاعب البشري من الوقت للوصول إلى مستويات مختلفة؟
| المستوى | الوقت البشري | AlphaGo Zero |
|---|---|---|
| المبتدئ | عدة أسابيع | دقائق |
| دان هاوٍ | سنوات | ساعات |
| مستوى احترافي | 10-20 سنة | 1-2 يوم |
| بطل العالم | 20+ سنة تفرغ كامل | 3 أيام |
| تجاوز البشر | مستحيل | 3 أيام |
هذه المقارنة ليست للتقليل من اللاعبين البشريين — هم يستخدمون خلايا عصبية بيولوجية، بينما AlphaGo Zero يستخدم TPUs مصممة خصيصاً وعدة آلاف واط من الطاقة. لكنها تُظهر مدى كفاءة طريقة التعلم الصحيحة.
العمومية: الشطرنج، الشوغي
ولادة AlphaZero
في ديسمبر 2017، نشرت DeepMind AlphaZero — النسخة العامة من AlphaGo Zero. نفس الخوارزمية، بتعديل قواعد اللعبة فقط، تستطيع الوصول إلى مستوى عالمي في ثلاث ألعاب:
| اللعبة | وقت التدريب | الخصم | النتيجة |
|---|---|---|---|
| الغو | 8 ساعات | AlphaGo Zero | 60:40 |
| الشطرنج | 4 ساعات | Stockfish 8 | 28 فوز 72 تعادل 0 خسارة |
| الشوغي | ساعتان | Elmo | 90:8:2 |
لاحظ الخصوم هنا:
- Stockfish كان أقوى محرك شطرنج في ذلك الوقت، يستخدم عقوداً من المعرفة البشرية والتحسينات
- Elmo كان أقوى ذكاء شوغي اصطناعي في ذلك الوقت
AlphaZero بساعات قليلة من التدريب، تجاوز هذه الأنظمة المتخصصة التي استغرقت سنوات في التطوير.
أهمية العمومية
AlphaGo Zero / AlphaZero أثبتا شيئاً مهماً:
نفس خوارزمية التعلم، يمكنها الوصول إلى مستوى فوق بشري في مجالات مختلفة.
هذا ليس ثلاثة ذكاءات اصطناعية مختلفة، بل إطار تعلم عام واحد:
- اللعب الذاتي يولّد الخبرة
- بحث شجرة مونت كارلو يستكشف الاحتمالات
- الشبكة العصبية تتعلم دالة السياسة والقيمة
- التعلم المعزز يحسّن دالة الهدف
هذا الإطار لا يعتمد على معرفة مجال محدد، وهذا خطوة مهمة نحو تعميم الذكاء الاصطناعي.
التأثير على الذكاء الاصطناعي التقليدي
قبل AlphaZero، أقوى ذكاء اصطناعي في الشطرنج والشوغي كان من نمط "النظام الخبير":
- معرفة بشرية كثيرة: مكتبات افتتاحية، مكتبات نهاية، دوال تقييم
- عقود من التحسين: جهود لاعبين ومهندسين لا تُحصى
- تخصص شديد: Stockfish لا يستطيع لعب الغو، Elmo لا يستطيع لعب الشطرنج
AlphaZero بخوارزمية عامة واحدة تجاوز كل هذا في ساعات. هذا جعل كثيراً من باحثي الذكاء الاصطناعي يعيدون التفكير:
هل يجب أن نستثمر جهداً أكثر في "خوارزميات التعلم العامة" أم "تشفير المعرفة الخبيرة"؟
الجواب يبدو أوضح وأوضح: ترك الآلة تتعلم بنفسها أكثر فعالية من تعليمها المعرفة.
أسلوب لعب AlphaGo Zero
جماليات تتجاوز البشر
مجتمع الغو لديه تقييم عام لحركات AlphaGo Zero: أكثر جمالاً.
حركات AlphaGo Lee كانت تبدو أحياناً "غريبة" — مثل الحركة 37، البشر احتاجوا تحليلاً لاحقاً لفهم روعتها. لكن حركات AlphaGo Zero غالباً ما تُقيَّم لاحقاً بأنها "واضحة أنها جيدة من النظرة الأولى".
قد يكون هذا بسبب:
- قوة لعب أكبر: Zero يرى أعمق، يلعب بأريحية أكبر
- بدون تحيز بشري: غير مقيد بالجوسيكي التقليدي
- هدف متسق: يسعى فقط لنسبة الفوز، لا يقلد البشر
إعادة اكتشاف نظرية الغو البشرية
المثير للاهتمام، AlphaGo Zero خلال التدريب "أعاد اكتشاف" معرفة الغو التي راكمها البشر آلاف السنين:
- الجوسيكي: Zero اكتشف بنفسه كثيراً من الجوسيكي الشائعة، لأنها فعلاً الحل الأمثل للطرفين
- مبادئ الفوسيكي (الافتتاح): ترتيب أهمية الزاوية، الحافة، الوسط
- معرفة شكل الأحجار: الفرق بين الشكل السيء والجيد
هذا يؤكد معقولية نظرية الغو البشرية — هذه المعرفة ليست صدفة، بل انعكاس لجوهر الغو.
ابتكار يتجاوز البشر
لكن Zero اكتشف أيضاً حركات لم يفكر فيها البشر أبداً:
- افتتاحيات غير تقليدية: تنويعات على الافتتاحيات التقليدية
- تضحية عدوانية: أكثر استعداداً من البشر للتخلي عن المحلي مقابل ميزة شاملة
- أشكال معاكسة للحدس: ما يبدو "شكلاً سيئاً" هو في الواقع الحل الأمثل
هذه الابتكارات تغيّر فهم البشر للغو. كثير من اللاعبين المحترفين أفادوا أن دراسة سجلات AlphaGo Zero أعطتهم فهماً جديداً تماماً للغو.
ملخص التفاصيل التقنية
المقارنة الكاملة مع AlphaGo الأصلي
| الجانب | AlphaGo (الأصلي) | AlphaGo Zero |
|---|---|---|
| بيانات التدريب | سجلات بشرية + لعب ذاتي | لعب ذاتي نقي |
| طريقة التعلم | تعلم إشرافي + تعلم معزز | تعلم معزز نقي |
| ميزات الإدخال | 48 مستوى | 17 مستوى |
| بنية الشبكة | Policy/Value منفصلة | ResNet مزدوجة الرأس |
| عمق الشبكة | 13 طبقة | 40 طبقة (أو أكثر) |
| تقييم MCTS | شبكة عصبية + Rollout | شبكة عصبية نقية |
| عدد البحث | ~100,000 لكل حركة | ~1,600 لكل حركة |
| TPUs للتدريب | 50+ | 4 |
| TPUs للاستنتاج | 48 | 4 (قابل للتوسع) |
الخوارزمية الأساسية
دورة تدريب AlphaGo Zero بسيطة جداً:
1. اللعب الذاتي
- استخدام الشبكة الحالية لـ MCTS
- اختيار الحركة حسب احتمالية بحث MCTS
- تسجيل (الوضع، احتمالية MCTS، نتيجة الفوز/الخسارة) لكل حركة
2. تدريب الشبكة
- أخذ عينات من مجمع الخبرة
- Policy Head: تقليل الإنتروبيا المتقاطعة مع احتمالية MCTS
- Value Head: تقليل الخطأ التربيعي المتوسط مع الفوز/الخسارة الفعلي
- تحسين الهدفين معاً
3. تحديث الشبكة
- استبدال الشبكة القديمة بالجديدة (التحقق بالمباراة أن الشبكة الجديدة أقوى)
- العودة للخطوة 1
هذه الدورة تستمر، والشبكة تصبح أقوى باستمرار. بدون بيانات بشرية، بدون معرفة بشرية، فقط قواعد اللعبة وهدف الفوز/الخسارة.
دروس لأبحاث الذكاء الاصطناعي
التعلم من المبادئ الأولى
AlphaGo Zero أظهر طريقة تعلم "المبادئ الأولى":
لا تخبر الذكاء الاصطناعي كيف يفعل، فقط أخبره ما هو الهدف، ودعه يكتشف الطريقة بنفسه.
هذا يتناقض بشكل صارخ مع طريقة النظام الخبير التقليدي. النظام الخبير يحاول تشفير المعرفة البشرية في الذكاء الاصطناعي، بينما AlphaGo Zero يدع الذكاء الاصطناعي يكتشف المعرفة بنفسه.
النتيجة هي: المعرفة التي يكتشفها الذكاء الاصطناعي قد تكون أكثر اكتمالاً ودقة من المعرفة البشرية.
قوة اللعب الذاتي
AlphaGo Zero أثبت أن اللعب الذاتي يمكنه توليد بيانات تدريب لا نهائية، وجودة هذه البيانات تتحسن مع تحسن الشبكة.
هذه "دورة إيجابية":
- شبكة أقوى → بيانات لعب ذاتي أفضل
- بيانات أفضل → شبكة أقوى
هذه الدورة يمكن أن تستمر حتى الوصول إلى الحد النظري للعبة (إن وجد).
أهمية التبسيط
نجاح AlphaGo Zero أثبت أهمية "التبسيط":
- تبسيط الإدخال (48 → 17)
- تبسيط البنية (شبكتان → شبكة واحدة)
- تبسيط التدريب (إشرافي + معزز → معزز نقي)
كل تبسيط جعل النظام أقوى. هذا يعلمنا: المعقد لا يساوي الجيد، أبسط الحلول غالباً أفضلها.
تطابق الرسوم المتحركة
المفاهيم الأساسية في هذه المقالة ورقم الرسوم المتحركة المقابل:
| الرقم | المفهوم | التطابق الفيزيائي/الرياضي |
|---|---|---|
| 🎬 E7 | التدريب من الصفر | ظاهرة التنظيم الذاتي |
| 🎬 E5 | اللعب الذاتي | تقارب النقطة الثابتة |
| 🎬 E12 | منحنى نمو قوة اللعب | نمو S-شكل |
| 🎬 D12 | شبكة الباقي | طريق التدرج السريع |
قراءة موسعة
- المقال التالي: الشبكة مزدوجة الرأس وشبكة الباقي — شرح تفصيلي لبنية الشبكة العصبية في AlphaGo Zero
- مقال ذو صلة: اللعب الذاتي — لماذا يستطيع اللعب الذاتي إنتاج مستوى فوق بشري
- تعمق تقني: عملية التدريب من الصفر — التطور التفصيلي من اليوم 0 إلى 3
المراجع
- Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
- Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
- DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
- Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.