عملية التدريب من الصفر

الأمر الأكثر إدهاشاً في AlphaGo Zero ليس فقط قوته النهائية في اللعب، بل عملية نموه - بدءاً من حالة عشوائية تماماً، اجتاز في ثلاثة أيام فقط ما استغرقه البشر آلاف السنين من تراكم المعرفة في لعبة الغو، ثم تجاوز كل فهم بشري.

ستأخذك هذه المقالة خطوة بخطوة لمشاهدة هذه الرحلة المذهلة من التحول.

منحنى التدريب

أولاً، دعنا نلقي نظرة على منحنى نمو قوة AlphaGo Zero:

載入中...

يُظهر هذا المنحنى تغير قوة AlphaGo Zero خلال 72 ساعة. لاحظ بعض المعالم الرئيسية:

الوقت	تقييم ELO	المعادل
0 ساعة	0	لعب عشوائي
3 ساعات	~1000	اكتشاف القواعد الأساسية
12 ساعة	~3000	اكتشاف الجوسيكي والأشكال
36 ساعة	~4500	تجاوز نسخة فان هوي من AlphaGo
60 ساعة	~5200	تجاوز نسخة لي سيدول من AlphaGo
72 ساعة	~5400	تجاوز جميع النسخ السابقة

ثلاثة أيام، من الصفر إلى تجاوز قمة البشرية.

اليوم صفر: بداية الفوضى

الحالة الأولية العشوائية بالكامل

عند بدء التدريب، يتم تهيئة أوزان الشبكة العصبية بشكل عشوائي. هذا يعني:

Policy Head: ينتج توزيعاً قريباً من المنتظم، احتمالية كل موقع للعب حوالي 1/361
Value Head: ينتج قيمة قريبة من 0، لا يمكنه التمييز بين المواقف الجيدة والسيئة

في هذه المرحلة، يلعب AlphaGo Zero بشكل عشوائي تماماً - أسوأ من شخص لم يرَ لوحة الغو من قبل.

المباراة الأولى للعب الذاتي

تخيل كيف تبدو المباراة الأولى للعب الذاتي:

الأسود 1: يضع بشكل عشوائي في مكان ما (ربما في المركز، ربما في الزاوية، ربما على الخط الأول)
الأبيض 2: يضع بشكل عشوائي في مكان آخر
الأسود 3: عشوائي...
...
الحركة 200: اللوحة مليئة بالأحجار المعزولة، بدون أي اتصال
النهاية: يُحدد الفائز والخاسر بعوامل عشوائية

"جودة" هذه المباراة منخفضة للغاية، لكنها تحتوي على معلومات قيمة: من فاز في النهاية.

إشارة التدريب الأولى

رغم أن كلا الطرفين يلعبان بشكل عشوائي، إلا أن نتيجة الفوز والخسارة محددة. تبدأ الشبكة العصبية في التعلم:

"في هذا الموقف، فاز الأسود في النهاية. رغم أنني لا أعرف السبب، لكن هذا الموقف ربما يكون أفضل للأسود."

هذه إشارة ضعيفة جداً، لكنها حقيقية. بعد آلاف المباريات من هذه "المباريات السيئة"، تبدأ الشبكة في اكتشاف بعض الأنماط الإحصائية.

الساعات 1-3: اكتشاف قواعد اللعبة

ظهور الوعي بالقواعد

بعد عشرات الآلاف من مباريات اللعب الذاتي، يبدأ AlphaGo Zero في "اكتشاف" القواعد الأساسية للغو (رغم أن هذه القواعد مدمجة بالفعل في محرك اللعبة):

1. أهمية الاتصال

الملاحظة: عندما تكون الأحجار متصلة، يصعب أسرها
التعلم: يبدأ في تفضيل الوضع بجانب الأحجار الموجودة

هذا لم يُعلَّم له، بل تعلمه من نتائج الفوز والخسارة. الأحجار المتناثرة يسهل هزيمتها واحدة تلو الأخرى، بينما الأحجار المتصلة أكثر عرضة للبقاء.

2. مفهوم الحريات

الملاحظة: عندما تُحتل جميع النقاط المجاورة لحجر ما، يختفي الحجر
التعلم: يبدأ في تجنب المواقع ذات الحريات القليلة، ويهاجم أحجار الخصم ذات الحريات القليلة

تعلمت الشبكة تتبع عدد الحريات - رغم عدم وجود ميزة "عدد الحريات" صريحة في المدخلات، يمكن استنتاجها من حالات اللوحة التاريخية.

3. بذور العيون

الملاحظة: بعض الأشكال يصعب جداً أسرها
التعلم: يبدأ في تشكيل أشكال ذات مساحة في الزوايا والحواف

هذا هو بداية مفهوم الحياة. اكتشفت الشبكة أن مجموعات الأحجار ذات المساحة الداخلية أكثر عرضة للبقاء.

تقييم القوة

في هذه المرحلة، AlphaGo Zero تقريباً:

ELO: ~1000
المعادل: مبتدئ تعلم القواعد للتو
الخصائص: يعرف أنه يجب توصيل الأحجار، يعرف أنه يجب أسر أحجار الخصم

الساعات 3-12: اكتشاف الجوسيكي والأشكال

إدراك الزوايا

مع المزيد من التدريب، اكتشفت الشبكة أهمية الزوايا:

الملاحظة: الأحجار في الزاوية تحتاج فقط عينين للحياة
        الحافة تحتاج عينين وهذا أصعب
        المركز يحتاج عينين وهذا الأصعب
التعلم: في الافتتاح، الأولوية لاحتلال الزوايا

هذه هي عملية اكتشاف مبدأ "الزوايا ذهبية، الحواف فضية، المركز عشب" في حكمة الغو البشرية. لم تُخبر الشبكة بهذا المبدأ، بل اكتشفته بنفسها من مئات الآلاف من المباريات.

ظهور الجوسيكي

الأكثر إدهاشاً هو أن الشبكة بدأت في "اختراع" الجوسيكي - التسلسلات القياسية للعب في الزوايا:

الظاهرة المُلاحظة

بداية التدريب: طرق اللعب في الزوايا متنوعة
وسط التدريب: بعض الطرق تتكرر
نهاية التدريب: تتشكل جوسيكي زاوية مستقرة

هذه الجوسيكي تشبه جداً الجوسيكي التي تراكمت لدى البشر على مدى قرون، مما يؤكد أن هذه الجوسيكي هي بالفعل تقريب للعب الأمثل من كلا الطرفين.

جوسيكي ناشئة نموذجية

كمثال على جوسيكي الكوموكو (نقطة 3-4):

  A B C D E F G H J
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . ● . . . . .   ● = أسود
. . . . . . . . .   ○ = أبيض
. . . ○ . ● . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

الأسود يحتل الكوموكو، الأبيض يقترب من الزاوية، الأسود يحاصر - هذا التسلسل ظهر بشكل طبيعي أثناء التدريب.

معرفة الأشكال

بالإضافة إلى الجوسيكي، تعلمت الشبكة أيضاً الفرق بين الأشكال الجيدة والسيئة:

الشكل	التقييم البشري	تعلم Zero
المثلث الفارغ	شكل أحمق	يتجنبه تدريجياً
فم النمر	شكل جيد	يفضله تدريجياً
طيران مزدوج	شكل هجوم كلاسيكي	يكتشفه طبيعياً
رأس الإله الحارس	هجوم قوي	يكتشفه طبيعياً

تقييم القوة

في هذه المرحلة، AlphaGo Zero:

ELO: ~3000
المعادل: هاوٍ متقدم
الخصائص: لديه معرفة أساسية بالجوسيكي، يفهم الأشكال الأساسية

الساعات 12-36: نضج نظرية اللعب

تشكل الرؤية الشاملة

في اليوم الثاني، بدأت الشبكة في إظهار رؤية شاملة:

التأثير والأرض

الملاحظة: إحاطة المساحة يمنح نقاطاً
        لكن التأثير له قيمة أيضاً - يمكن مهاجمة الخصم به
التعلم: إيجاد التوازن بين أخذ الأرض وأخذ التأثير

هذا من أعمق المفاهيم في الغو. تعلمت الشبكة تقييم قيمة "الافتراضي" و"الحقيقي".

الحكم على السماكة والرقة

الملاحظة: الأحجار "السميكة" يمكنها دعم القتال في أماكن بعيدة
        الأحجار "الرقيقة" تحتاج تعزيزاً، وإلا ستُهاجم
التعلم: بناء السماكة بشكل استباقي، مهاجمة نقاط ضعف الخصم

تكتيكات وسط اللعبة

تحسنت قدرات القتال في وسط اللعبة بشكل كبير:

التقنية	الوصف
مهاجمة الأحجار الضعيفة	تحديد أحجار الخصم المعزولة وشن الهجوم
الاستفادة من السماكة	استخدام السماكة لدعم الهجوم وكسب الفوائد
التبادل	التخلي عن الخسارة المحلية مقابل ميزة شاملة
الاختراق	غزو نطاق الخصم

تقنيات النهاية

كما تحسنت الحسابات الدقيقة في مرحلة النهاية:

الملاحظة: في النهاية، يمكن حساب قيمة كل حركة بدقة
التعلم: جمع النهاية بترتيب القيمة من الأعلى

تعلمت الشبكة مفاهيم مثل "سينتي لكلا الجانبين"، "سينتي لجانب واحد"، و"غوتي".

تقييم القوة

في هذه المرحلة، AlphaGo Zero:

ELO: ~4500
المعادل: مستوى لاعب محترف
الخصائص: فهم كامل للغو، قادر على لعب مباريات عالية الجودة

الساعات 36-72: تجاوز البشرية

اختراق المستوى المحترف

في حوالي 36 ساعة، وصلت قوة AlphaGo Zero إلى مستوى اللاعبين المحترفين. لكن التدريب لم يتوقف - استمر في اللعب الذاتي والتحسن.

ما حدث بعد ذلك كان أكثر إثارة: بدأ في اكتشاف طرق لعب لم يفكر فيها البشر من قبل.

افتتاحات ثورية

الافتتاحات التقليدية في الغو لها العديد من "المُسلَّمات":

الرأي التقليدي	اكتشاف AlphaGo Zero
احتلال الزوايا أولاً في الافتتاح	في بعض الحالات، احتلال الحافة أولاً أفضل
الكوموكو هو الأكثر أماناً	الدخول المباشر في 3-3 ممكن
يجب حفظ الجوسيكي	يمكن الخروج عن الجوسيكي عمداً
الدخول في 3-3 مبكراً جداً طماع	في بعض المواقف، الدخول في 3-3 صحيح

هذه "الاكتشافات" درسها اللاعبون المحترفون بشكل مكثف بعد AlphaGo، والكثير منها أصبح الآن جزءاً من نظرية اللعب الحديثة.

أشكال مضادة للحدس

أحياناً يلعب AlphaGo Zero أشكالاً يعتبرها البشر "غير جميلة":

البشري: "هذا شكل أحمق، مستحيل أن يكون جيداً"
Zero: (يلعب تلك الحركة)
بعد التحليل: "اتضح أن هذا أكثر كفاءة"

هذا يكشف حدود النظرية البشرية: بعض "الأشكال السيئة" هي في الواقع الحل الأمثل في مواقف معينة.

التضحية الجريئة

Zero أكثر استعداداً للتضحية بالأحجار مقابل فوائد أخرى:

خسارة محلية 3 نقاط
كسب المبادرة الشاملة
في النهاية، زيادة معدل الفوز

غالباً ما يهتم اللاعبون البشر كثيراً بالمكاسب والخسائر المحلية، بينما يركز Zero دائماً على معدل الفوز النهائي.

تقييم القوة

AlphaGo Zero بعد 72 ساعة:

ELO: ~5400
المعادل: يتجاوز جميع اللاعبين البشر
الخصائص: يكتشف طرق لعب غير معروفة للبشر، يخلق نظرية جديدة

إعادة اكتشاف النظرية البشرية

آلاف السنين مقابل ثلاثة أيام

تطور الغو البشري على مدى آلاف السنين:

نشأت في الصين حوالي 2000 قبل الميلاد
انتقلت إلى اليابان في عهد أسرة تانغ، وتطورت نظرية دقيقة
ظهرت أنظمة الاحتراف في القرن العشرين، وتعمقت النظرية أكثر
في 2016، اعتقد البشر أنهم يفهمون الغو جيداً

اجتاز AlphaGo Zero هذه الرحلة في ثلاثة أيام. الأكثر إدهاشاً أن النظرية التي اكتشفها تتطابق بشكل كبير مع النظرية البشرية.

التحقق والتجاوز

المعرفة البشرية	موقف Zero
الزوايا ذهبية، الحواف فضية، المركز عشب	مؤكد (الزوايا مهمة بالفعل)
الجوسيكي الأساسية	معظمها مؤكد، بعض التحسينات
الأشكال الجيدة والسيئة	معظمها مؤكد، توجد استثناءات
تبادل التضحيات	أكثر جرأة من البشر
الحكم على السماكة والرقة	متوافق تقريباً، اختلافات في التفاصيل

هذا يُظهر أن النظرية التي تراكمت لدى البشر على مدى آلاف السنين صحيحة في الاتجاه العام. لكن هناك بعض المجالات التي تحتاج فيها الفهم البشري إلى تصحيح.

دروس للتعلم البشري

تقدم عملية تدريب AlphaGo Zero دروساً للتعلم البشري:

البدء من الأساسيات: تعلم Zero القواعد أولاً، ثم الأشكال، وأخيراً الرؤية الشاملة
الممارسة المكثفة: 4.9 مليون مباراة لعب ذاتي تعادل عشرات الآلاف من السنين من المباريات البشرية
التركيز على الفوز والخسارة: لا يسعى إلى "لعب جميل"، فقط يسعى للفوز
عدم التقيد بالتقاليد: يجرؤ على تجربة طرق لعب "مستحيلة"

التفاصيل التقنية لعملية التدريب

آلية اللعب الذاتي

سير كل مباراة لعب ذاتي:

التهيئة: لوحة فارغة
↓
كل حركة:
  1. تقييم الموقف الحالي بالشبكة العصبية
  2. تنفيذ بحث MCTS (1600 محاكاة)
  3. اختيار الحركة بناءً على نتائج البحث
  4. تسجيل (الموقف، احتمالات MCTS، -)
↓
انتهاء اللعبة:
  1. تحديد الفائز والخاسر z ∈ {-1, +1}
  2. إضافة النتيجة لجميع السجلات (الموقف، احتمالات MCTS، z)
  3. إضافة البيانات إلى مجموعة التدريب

إيقاع التدريب

تدريب AlphaGo Zero مستمر:

Self-play Workers:       ينتج بيانات لعب ذاتي باستمرار
Training Workers:        يأخذ عينات من مجموعة البيانات ويتدرب باستمرار
Network Updates:         يحدث الشبكة المستخدمة في اللعب الذاتي دورياً

هذه العمليات الثلاث تجري في نفس الوقت، مما يشكل دورة تحسين مستمرة.

إدارة مجموعة البيانات

إدارة مجموعة بيانات التدريب:

المعامل	القيمة
حجم المجموعة	آخر 500,000 مباراة
عينات لكل مباراة	~200 حركة
إجمالي العينات	~100 مليون
طريقة أخذ العينات	عشوائي منتظم

البيانات القديمة تُستبدل بالجديدة، مما يضمن أن بيانات التدريب تعكس مستوى الشبكة الحالي.

استراتيجية تحديث الشبكة

لا يتم تحديث شبكة اللعب الذاتي بعد كل خطوة تدريب. بدلاً من ذلك:

بعد فترة من التدريب، يتم إنتاج شبكة مرشحة
الشبكة المرشحة تنافس الشبكة الحالية (400 مباراة)
إذا كان معدل فوز المرشح > 55%، يتم التحديث
وإلا، يستمر التدريب

هذا يضمن أن اللعب الذاتي يستخدم دائماً شبكة قوية بما فيه الكفاية.

تحليل سرعة التعلم

لماذا هذه السرعة؟

أسباب السرعة المذهلة لتعلم AlphaGo Zero:

1. موارد الحوسبة

4 TPU، عشرات الآلاف من الاستدلالات في الثانية
مئات الآلاف من مباريات اللعب الذاتي يومياً
تعادل آلاف السنين من المباريات البشرية

2. الخصم المثالي

اللعب الذاتي يعني:

مستوى الخصم دائماً مساوٍ لمستواك
ليس ضعيفاً جداً (لا تتعلم شيئاً) وليس قوياً جداً (لا يمكنك الفوز)
هذه هي ظروف التعلم المثالية

3. الهدف المباشر

هدف واحد فقط: الفوز. بدون:

تفضيلات المعلم
السعي وراء أسلوب معين
اعتبارات جمالية

4. تعلم التمثيل الفعال

الشبكة المتبقية قادرة على تعلم ميزات مجردة جداً للوحة، أكثر فعالية من الميزات المصممة يدوياً.

مقارنة مع البشر

الجانب	البشر	AlphaGo Zero
سرعة التعلم	~10 مباريات يومياً	~100,000 مباراة يومياً
الاحتفاظ بالذاكرة	ينسى	احتفاظ مثالي
حدود الطاقة	يحتاج راحة	يعمل 24/7
القدرة على الابتكار	يتأثر بالتقاليد	بدون قيود مسبقة

ظواهر مثيرة خلال التدريب

التوقف المرحلي

منحنى التدريب ليس سلساً تماماً، أحياناً تحدث فترات توقف:

ELO: 2000 -----> 2000 -----> 2500 ---->
          (توقف)       (اختراق)

ربما لأن الشبكة تتعلم مفهوماً جديداً وتحتاج وقتاً "للهضم".

ظهور واختفاء الاستراتيجيات

بعض الاستراتيجيات تظهر أثناء التدريب ثم تختفي:

المرحلة 1: اكتشاف وسيلة هجوم معينة
المرحلة 2: الخصم يتعلم الدفاع
المرحلة 3: تقل وتيرة استخدام تلك الوسيلة
المرحلة 4: اكتشاف وسيلة هجوم جديدة

هذا نموذج مصغر لسباق التسلح.

"إعادة اختراع العجلة"

أثناء التدريب، يقوم Zero بـ "إعادة اختراع" مفاهيم معروفة للبشر:

الشيتشو: اكتشاف أن الآتاري المتتالي يمكن أن يأسر الأحجار
أوتوغاشي: اكتشاف أنه يمكن إعطاء أحجار أولاً ثم القتل المعاكس
الكو: اكتشاف طرق استغلال قاعدة التجنب

ترتيب هذه الاكتشافات مشابه لترتيب تعلم البشر للغو.

الرسوم المتحركة المقابلة

المفاهيم الأساسية في هذه المقالة وأرقام الرسوم المتحركة:

الرقم	المفهوم	المقابل في الفيزياء/الرياضيات
🎬 E12	منحنى نمو القوة	نمو على شكل S (لوجستي)
🎬 E7	من الصفر	ظاهرة التنظيم الذاتي
🎬 E5	اللعب الذاتي	تقارب النقطة الثابتة
🎬 F8	القدرات الناشئة	تحول الطور

قراءة إضافية

المقالة السابقة: الشبكة ثنائية الرأس والشبكة المتبقية — بنية الشبكة العصبية التي تدعم كل هذا
المقالة التالية: الأنظمة الموزعة و TPU — الأجهزة التي جعلت كل هذا ممكناً
مقالة ذات صلة: اللعب الذاتي — لماذا اللعب الذاتي فعال جداً

المراجع

Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
Silver, D., et al. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
DeepMind. (2017). "AlphaGo Zero: Learning from scratch." YouTube.
Wang, F., et al. (2019). "A Survey on the Evolution of AlphaGo." arXiv:1907.11180.

منحنى التدريب​

اليوم صفر: بداية الفوضى​

الحالة الأولية العشوائية بالكامل​

المباراة الأولى للعب الذاتي​

إشارة التدريب الأولى​

الساعات 1-3: اكتشاف قواعد اللعبة​

ظهور الوعي بالقواعد​

1. أهمية الاتصال​

2. مفهوم الحريات​

3. بذور العيون​

تقييم القوة​

الساعات 3-12: اكتشاف الجوسيكي والأشكال​

إدراك الزوايا​

ظهور الجوسيكي​

الظاهرة المُلاحظة​

جوسيكي ناشئة نموذجية​

معرفة الأشكال​

تقييم القوة​

الساعات 12-36: نضج نظرية اللعب​

تشكل الرؤية الشاملة​

التأثير والأرض​

الحكم على السماكة والرقة​

تكتيكات وسط اللعبة​

تقنيات النهاية​

تقييم القوة​

الساعات 36-72: تجاوز البشرية​

اختراق المستوى المحترف​

افتتاحات ثورية​

أشكال مضادة للحدس​

التضحية الجريئة​

تقييم القوة​

إعادة اكتشاف النظرية البشرية​

آلاف السنين مقابل ثلاثة أيام​

التحقق والتجاوز​

دروس للتعلم البشري​

التفاصيل التقنية لعملية التدريب​

آلية اللعب الذاتي​

إيقاع التدريب​

إدارة مجموعة البيانات​

استراتيجية تحديث الشبكة​

تحليل سرعة التعلم​

لماذا هذه السرعة؟​

1. موارد الحوسبة​

2. الخصم المثالي​

3. الهدف المباشر​

4. تعلم التمثيل الفعال​

مقارنة مع البشر​

ظواهر مثيرة خلال التدريب​

التوقف المرحلي​

ظهور واختفاء الاستراتيجيات​

"إعادة اختراع العجلة"​

الرسوم المتحركة المقابلة​

قراءة إضافية​

المراجع​

منحنى التدريب

اليوم صفر: بداية الفوضى

الحالة الأولية العشوائية بالكامل

المباراة الأولى للعب الذاتي

إشارة التدريب الأولى

الساعات 1-3: اكتشاف قواعد اللعبة

ظهور الوعي بالقواعد

1. أهمية الاتصال

2. مفهوم الحريات

3. بذور العيون

تقييم القوة

الساعات 3-12: اكتشاف الجوسيكي والأشكال

إدراك الزوايا

ظهور الجوسيكي

الظاهرة المُلاحظة

جوسيكي ناشئة نموذجية

معرفة الأشكال

تقييم القوة

الساعات 12-36: نضج نظرية اللعب

تشكل الرؤية الشاملة

التأثير والأرض

الحكم على السماكة والرقة

تكتيكات وسط اللعبة

تقنيات النهاية

تقييم القوة

الساعات 36-72: تجاوز البشرية

اختراق المستوى المحترف

افتتاحات ثورية

أشكال مضادة للحدس

التضحية الجريئة

تقييم القوة

إعادة اكتشاف النظرية البشرية

آلاف السنين مقابل ثلاثة أيام

التحقق والتجاوز

دروس للتعلم البشري

التفاصيل التقنية لعملية التدريب

آلية اللعب الذاتي

إيقاع التدريب

إدارة مجموعة البيانات

استراتيجية تحديث الشبكة

تحليل سرعة التعلم

لماذا هذه السرعة؟

1. موارد الحوسبة

2. الخصم المثالي

3. الهدف المباشر

4. تعلم التمثيل الفعال

مقارنة مع البشر

ظواهر مثيرة خلال التدريب

التوقف المرحلي

ظهور واختفاء الاستراتيجيات

"إعادة اختراع العجلة"

الرسوم المتحركة المقابلة

قراءة إضافية

المراجع