انتقل إلى المحتوى الرئيسي

عملية التدريب من الصفر

الأمر الأكثر إدهاشاً في AlphaGo Zero ليس فقط قوته النهائية في اللعب، بل عملية نموه - بدءاً من حالة عشوائية تماماً، اجتاز في ثلاثة أيام فقط ما استغرقه البشر آلاف السنين من تراكم المعرفة في لعبة الغو، ثم تجاوز كل فهم بشري.

ستأخذك هذه المقالة خطوة بخطوة لمشاهدة هذه الرحلة المذهلة من التحول.


منحنى التدريب

أولاً، دعنا نلقي نظرة على منحنى نمو قوة AlphaGo Zero:

載入中...

يُظهر هذا المنحنى تغير قوة AlphaGo Zero خلال 72 ساعة. لاحظ بعض المعالم الرئيسية:

الوقتتقييم ELOالمعادل
0 ساعة0لعب عشوائي
3 ساعات~1000اكتشاف القواعد الأساسية
12 ساعة~3000اكتشاف الجوسيكي والأشكال
36 ساعة~4500تجاوز نسخة فان هوي من AlphaGo
60 ساعة~5200تجاوز نسخة لي سيدول من AlphaGo
72 ساعة~5400تجاوز جميع النسخ السابقة

ثلاثة أيام، من الصفر إلى تجاوز قمة البشرية.


اليوم صفر: بداية الفوضى

الحالة الأولية العشوائية بالكامل

عند بدء التدريب، يتم تهيئة أوزان الشبكة العصبية بشكل عشوائي. هذا يعني:

  • Policy Head: ينتج توزيعاً قريباً من المنتظم، احتمالية كل موقع للعب حوالي 1/361
  • Value Head: ينتج قيمة قريبة من 0، لا يمكنه التمييز بين المواقف الجيدة والسيئة

في هذه المرحلة، يلعب AlphaGo Zero بشكل عشوائي تماماً - أسوأ من شخص لم يرَ لوحة الغو من قبل.

المباراة الأولى للعب الذاتي

تخيل كيف تبدو المباراة الأولى للعب الذاتي:

الأسود 1: يضع بشكل عشوائي في مكان ما (ربما في المركز، ربما في الزاوية، ربما على الخط الأول)
الأبيض 2: يضع بشكل عشوائي في مكان آخر
الأسود 3: عشوائي...
...
الحركة 200: اللوحة مليئة بالأحجار المعزولة، بدون أي اتصال
النهاية: يُحدد الفائز والخاسر بعوامل عشوائية

"جودة" هذه المباراة منخفضة للغاية، لكنها تحتوي على معلومات قيمة: من فاز في النهاية.

إشارة التدريب الأولى

رغم أن كلا الطرفين يلعبان بشكل عشوائي، إلا أن نتيجة الفوز والخسارة محددة. تبدأ الشبكة العصبية في التعلم:

"في هذا الموقف، فاز الأسود في النهاية. رغم أنني لا أعرف السبب، لكن هذا الموقف ربما يكون أفضل للأسود."

هذه إشارة ضعيفة جداً، لكنها حقيقية. بعد آلاف المباريات من هذه "المباريات السيئة"، تبدأ الشبكة في اكتشاف بعض الأنماط الإحصائية.


الساعات 1-3: اكتشاف قواعد اللعبة

ظهور الوعي بالقواعد

بعد عشرات الآلاف من مباريات اللعب الذاتي، يبدأ AlphaGo Zero في "اكتشاف" القواعد الأساسية للغو (رغم أن هذه القواعد مدمجة بالفعل في محرك اللعبة):

1. أهمية الاتصال

الملاحظة: عندما تكون الأحجار متصلة، يصعب أسرها
التعلم: يبدأ في تفضيل الوضع بجانب الأحجار الموجودة

هذا لم يُعلَّم له، بل تعلمه من نتائج الفوز والخسارة. الأحجار المتناثرة يسهل هزيمتها واحدة تلو الأخرى، بينما الأحجار المتصلة أكثر عرضة للبقاء.

2. مفهوم الحريات

الملاحظة: عندما تُحتل جميع النقاط المجاورة لحجر ما، يختفي الحجر
التعلم: يبدأ في تجنب المواقع ذات الحريات القليلة، ويهاجم أحجار الخصم ذات الحريات القليلة

تعلمت الشبكة تتبع عدد الحريات - رغم عدم وجود ميزة "عدد الحريات" صريحة في المدخلات، يمكن استنتاجها من حالات اللوحة التاريخية.

3. بذور العيون

الملاحظة: بعض الأشكال يصعب جداً أسرها
التعلم: يبدأ في تشكيل أشكال ذات مساحة في الزوايا والحواف

هذا هو بداية مفهوم الحياة. اكتشفت الشبكة أن مجموعات الأحجار ذات المساحة الداخلية أكثر عرضة للبقاء.

تقييم القوة

في هذه المرحلة، AlphaGo Zero تقريباً:

  • ELO: ~1000
  • المعادل: مبتدئ تعلم القواعد للتو
  • الخصائص: يعرف أنه يجب توصيل الأحجار، يعرف أنه يجب أسر أحجار الخصم

الساعات 3-12: اكتشاف الجوسيكي والأشكال

إدراك الزوايا

مع المزيد من التدريب، اكتشفت الشبكة أهمية الزوايا:

الملاحظة: الأحجار في الزاوية تحتاج فقط عينين للحياة
الحافة تحتاج عينين وهذا أصعب
المركز يحتاج عينين وهذا الأصعب
التعلم: في الافتتاح، الأولوية لاحتلال الزوايا

هذه هي عملية اكتشاف مبدأ "الزوايا ذهبية، الحواف فضية، المركز عشب" في حكمة الغو البشرية. لم تُخبر الشبكة بهذا المبدأ، بل اكتشفته بنفسها من مئات الآلاف من المباريات.

ظهور الجوسيكي

الأكثر إدهاشاً هو أن الشبكة بدأت في "اختراع" الجوسيكي - التسلسلات القياسية للعب في الزوايا:

الظاهرة المُلاحظة

بداية التدريب: طرق اللعب في الزوايا متنوعة
وسط التدريب: بعض الطرق تتكرر
نهاية التدريب: تتشكل جوسيكي زاوية مستقرة

هذه الجوسيكي تشبه جداً الجوسيكي التي تراكمت لدى البشر على مدى قرون، مما يؤكد أن هذه الجوسيكي هي بالفعل تقريب للعب الأمثل من كلا الطرفين.

جوسيكي ناشئة نموذجية

كمثال على جوسيكي الكوموكو (نقطة 3-4):

  A B C D E F G H J
9 . . . . . . . . .
8 . . . . . . . . .
7 . . . . . . . . .
6 . . . ● . . . . . ● = أسود
5 . . . . . . . . . ○ = أبيض
4 . . . ○ . ● . . .
3 . . . . . . . . .
2 . . . . . . . . .
1 . . . . . . . . .

الأسود يحتل الكوموكو، الأبيض يقترب من الزاوية، الأسود يحاصر - هذا التسلسل ظهر بشكل طبيعي أثناء التدريب.

معرفة الأشكال

بالإضافة إلى الجوسيكي، تعلمت الشبكة أيضاً الفرق بين الأشكال الجيدة والسيئة:

الشكلالتقييم البشريتعلم Zero
المثلث الفارغشكل أحمقيتجنبه تدريجياً
فم النمرشكل جيديفضله تدريجياً
طيران مزدوجشكل هجوم كلاسيكييكتشفه طبيعياً
رأس الإله الحارسهجوم قوييكتشفه طبيعياً

تقييم القوة

في هذه المرحلة، AlphaGo Zero:

  • ELO: ~3000
  • المعادل: هاوٍ متقدم
  • الخصائص: لديه معرفة أساسية بالجوسيكي، يفهم الأشكال الأساسية

الساعات 12-36: نضج نظرية اللعب

تشكل الرؤية الشاملة

في اليوم الثاني، بدأت الشبكة في إظهار رؤية شاملة:

التأثير والأرض

الملاحظة: إحاطة المساحة يمنح نقاطاً
لكن التأثير له قيمة أيضاً - يمكن مهاجمة الخصم به
التعلم: إيجاد التوازن بين أخذ الأرض وأخذ التأثير

هذا من أعمق المفاهيم في الغو. تعلمت الشبكة تقييم قيمة "الافتراضي" و"الحقيقي".

الحكم على السماكة والرقة

الملاحظة: الأحجار "السميكة" يمكنها دعم القتال في أماكن بعيدة
الأحجار "الرقيقة" تحتاج تعزيزاً، وإلا ستُهاجم
التعلم: بناء السماكة بشكل استباقي، مهاجمة نقاط ضعف الخصم

تكتيكات وسط اللعبة

تحسنت قدرات القتال في وسط اللعبة بشكل كبير:

التقنيةالوصف
مهاجمة الأحجار الضعيفةتحديد أحجار الخصم المعزولة وشن الهجوم
الاستفادة من السماكةاستخدام السماكة لدعم الهجوم وكسب الفوائد
التبادلالتخلي عن الخسارة المحلية مقابل ميزة شاملة
الاختراقغزو نطاق الخصم

تقنيات النهاية

كما تحسنت الحسابات الدقيقة في مرحلة النهاية:

الملاحظة: في النهاية، يمكن حساب قيمة كل حركة بدقة
التعلم: جمع النهاية بترتيب القيمة من الأعلى

تعلمت الشبكة مفاهيم مثل "سينتي لكلا الجانبين"، "سينتي لجانب واحد"، و"غوتي".

تقييم القوة

في هذه المرحلة، AlphaGo Zero:

  • ELO: ~4500
  • المعادل: مستوى لاعب محترف
  • الخصائص: فهم كامل للغو، قادر على لعب مباريات عالية الجودة

الساعات 36-72: تجاوز البشرية

اختراق المستوى المحترف

في حوالي 36 ساعة، وصلت قوة AlphaGo Zero إلى مستوى اللاعبين المحترفين. لكن التدريب لم يتوقف - استمر في اللعب الذاتي والتحسن.

ما حدث بعد ذلك كان أكثر إثارة: بدأ في اكتشاف طرق لعب لم يفكر فيها البشر من قبل.

افتتاحات ثورية

الافتتاحات التقليدية في الغو لها العديد من "المُسلَّمات":

الرأي التقليدياكتشاف AlphaGo Zero
احتلال الزوايا أولاً في الافتتاحفي بعض الحالات، احتلال الحافة أولاً أفضل
الكوموكو هو الأكثر أماناًالدخول المباشر في 3-3 ممكن
يجب حفظ الجوسيكييمكن الخروج عن الجوسيكي عمداً
الدخول في 3-3 مبكراً جداً طماعفي بعض المواقف، الدخول في 3-3 صحيح

هذه "الاكتشافات" درسها اللاعبون المحترفون بشكل مكثف بعد AlphaGo، والكثير منها أصبح الآن جزءاً من نظرية اللعب الحديثة.

أشكال مضادة للحدس

أحياناً يلعب AlphaGo Zero أشكالاً يعتبرها البشر "غير جميلة":

البشري: "هذا شكل أحمق، مستحيل أن يكون جيداً"
Zero: (يلعب تلك الحركة)
بعد التحليل: "اتضح أن هذا أكثر كفاءة"

هذا يكشف حدود النظرية البشرية: بعض "الأشكال السيئة" هي في الواقع الحل الأمثل في مواقف معينة.

التضحية الجريئة

Zero أكثر استعداداً للتضحية بالأحجار مقابل فوائد أخرى:

خسارة محلية 3 نقاط
كسب المبادرة الشاملة
في النهاية، زيادة معدل الفوز

غالباً ما يهتم اللاعبون البشر كثيراً بالمكاسب والخسائر المحلية، بينما يركز Zero دائماً على معدل الفوز النهائي.

تقييم القوة

AlphaGo Zero بعد 72 ساعة:

  • ELO: ~5400
  • المعادل: يتجاوز جميع اللاعبين البشر
  • الخصائص: يكتشف طرق لعب غير معروفة للبشر، يخلق نظرية جديدة

إعادة اكتشاف النظرية البشرية

آلاف السنين مقابل ثلاثة أيام

تطور الغو البشري على مدى آلاف السنين:

  • نشأت في الصين حوالي 2000 قبل الميلاد
  • انتقلت إلى اليابان في عهد أسرة تانغ، وتطورت نظرية دقيقة
  • ظهرت أنظمة الاحتراف في القرن العشرين، وتعمقت النظرية أكثر
  • في 2016، اعتقد البشر أنهم يفهمون الغو جيداً

اجتاز AlphaGo Zero هذه الرحلة في ثلاثة أيام. الأكثر إدهاشاً أن النظرية التي اكتشفها تتطابق بشكل كبير مع النظرية البشرية.

التحقق والتجاوز

المعرفة البشريةموقف Zero
الزوايا ذهبية، الحواف فضية، المركز عشبمؤكد (الزوايا مهمة بالفعل)
الجوسيكي الأساسيةمعظمها مؤكد، بعض التحسينات
الأشكال الجيدة والسيئةمعظمها مؤكد، توجد استثناءات
تبادل التضحياتأكثر جرأة من البشر
الحكم على السماكة والرقةمتوافق تقريباً، اختلافات في التفاصيل

هذا يُظهر أن النظرية التي تراكمت لدى البشر على مدى آلاف السنين صحيحة في الاتجاه العام. لكن هناك بعض المجالات التي تحتاج فيها الفهم البشري إلى تصحيح.

دروس للتعلم البشري

تقدم عملية تدريب AlphaGo Zero دروساً للتعلم البشري:

  1. البدء من الأساسيات: تعلم Zero القواعد أولاً، ثم الأشكال، وأخيراً الرؤية الشاملة
  2. الممارسة المكثفة: 4.9 مليون مباراة لعب ذاتي تعادل عشرات الآلاف من السنين من المباريات البشرية
  3. التركيز على الفوز والخسارة: لا يسعى إلى "لعب جميل"، فقط يسعى للفوز
  4. عدم التقيد بالتقاليد: يجرؤ على تجربة طرق لعب "مستحيلة"

التفاصيل التقنية لعملية التدريب

آلية اللعب الذاتي

سير كل مباراة لعب ذاتي:

التهيئة: لوحة فارغة

كل حركة:
1. تقييم الموقف الحالي بالشبكة العصبية
2. تنفيذ بحث MCTS (1600 محاكاة)
3. اختيار الحركة بناءً على نتائج البحث
4. تسجيل (الموقف، احتمالات MCTS، -)

انتهاء اللعبة:
1. تحديد الفائز والخاسر z ∈ {-1, +1}
2. إضافة النتيجة لجميع السجلات (الموقف، احتمالات MCTS، z)
3. إضافة البيانات إلى مجموعة التدريب

إيقاع التدريب

تدريب AlphaGo Zero مستمر:

Self-play Workers:       ينتج بيانات لعب ذاتي باستمرار
Training Workers: يأخذ عينات من مجموعة البيانات ويتدرب باستمرار
Network Updates: يحدث الشبكة المستخدمة في اللعب الذاتي دورياً

هذه العمليات الثلاث تجري في نفس الوقت، مما يشكل دورة تحسين مستمرة.

إدارة مجموعة البيانات

إدارة مجموعة بيانات التدريب:

المعاملالقيمة
حجم المجموعةآخر 500,000 مباراة
عينات لكل مباراة~200 حركة
إجمالي العينات~100 مليون
طريقة أخذ العيناتعشوائي منتظم

البيانات القديمة تُستبدل بالجديدة، مما يضمن أن بيانات التدريب تعكس مستوى الشبكة الحالي.

استراتيجية تحديث الشبكة

لا يتم تحديث شبكة اللعب الذاتي بعد كل خطوة تدريب. بدلاً من ذلك:

  1. بعد فترة من التدريب، يتم إنتاج شبكة مرشحة
  2. الشبكة المرشحة تنافس الشبكة الحالية (400 مباراة)
  3. إذا كان معدل فوز المرشح > 55%، يتم التحديث
  4. وإلا، يستمر التدريب

هذا يضمن أن اللعب الذاتي يستخدم دائماً شبكة قوية بما فيه الكفاية.


تحليل سرعة التعلم

لماذا هذه السرعة؟

أسباب السرعة المذهلة لتعلم AlphaGo Zero:

1. موارد الحوسبة

  • 4 TPU، عشرات الآلاف من الاستدلالات في الثانية
  • مئات الآلاف من مباريات اللعب الذاتي يومياً
  • تعادل آلاف السنين من المباريات البشرية

2. الخصم المثالي

اللعب الذاتي يعني:

  • مستوى الخصم دائماً مساوٍ لمستواك
  • ليس ضعيفاً جداً (لا تتعلم شيئاً) وليس قوياً جداً (لا يمكنك الفوز)
  • هذه هي ظروف التعلم المثالية

3. الهدف المباشر

هدف واحد فقط: الفوز. بدون:

  • تفضيلات المعلم
  • السعي وراء أسلوب معين
  • اعتبارات جمالية

4. تعلم التمثيل الفعال

الشبكة المتبقية قادرة على تعلم ميزات مجردة جداً للوحة، أكثر فعالية من الميزات المصممة يدوياً.

مقارنة مع البشر

الجانبالبشرAlphaGo Zero
سرعة التعلم~10 مباريات يومياً~100,000 مباراة يومياً
الاحتفاظ بالذاكرةينسىاحتفاظ مثالي
حدود الطاقةيحتاج راحةيعمل 24/7
القدرة على الابتكاريتأثر بالتقاليدبدون قيود مسبقة

ظواهر مثيرة خلال التدريب

التوقف المرحلي

منحنى التدريب ليس سلساً تماماً، أحياناً تحدث فترات توقف:

ELO: 2000 -----> 2000 -----> 2500 ---->
(توقف) (اختراق)

ربما لأن الشبكة تتعلم مفهوماً جديداً وتحتاج وقتاً "للهضم".

ظهور واختفاء الاستراتيجيات

بعض الاستراتيجيات تظهر أثناء التدريب ثم تختفي:

المرحلة 1: اكتشاف وسيلة هجوم معينة
المرحلة 2: الخصم يتعلم الدفاع
المرحلة 3: تقل وتيرة استخدام تلك الوسيلة
المرحلة 4: اكتشاف وسيلة هجوم جديدة

هذا نموذج مصغر لسباق التسلح.

"إعادة اختراع العجلة"

أثناء التدريب، يقوم Zero بـ "إعادة اختراع" مفاهيم معروفة للبشر:

  • الشيتشو: اكتشاف أن الآتاري المتتالي يمكن أن يأسر الأحجار
  • أوتوغاشي: اكتشاف أنه يمكن إعطاء أحجار أولاً ثم القتل المعاكس
  • الكو: اكتشاف طرق استغلال قاعدة التجنب

ترتيب هذه الاكتشافات مشابه لترتيب تعلم البشر للغو.


الرسوم المتحركة المقابلة

المفاهيم الأساسية في هذه المقالة وأرقام الرسوم المتحركة:

الرقمالمفهومالمقابل في الفيزياء/الرياضيات
🎬 E12منحنى نمو القوةنمو على شكل S (لوجستي)
🎬 E7من الصفرظاهرة التنظيم الذاتي
🎬 E5اللعب الذاتيتقارب النقطة الثابتة
🎬 F8القدرات الناشئةتحول الطور

قراءة إضافية


المراجع

  1. Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
  2. Silver, D., et al. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
  3. DeepMind. (2017). "AlphaGo Zero: Learning from scratch." YouTube.
  4. Wang, F., et al. (2019). "A Survey on the Evolution of AlphaGo." arXiv:1907.11180.