انتقل إلى المحتوى الرئيسي

نظرة عامة على AlphaGo Zero

في أكتوبر 2017، نشرت DeepMind نتيجة أذهلت عالم الذكاء الاصطناعي: AlphaGo Zero بدأ التدريب من حالة عشوائية تماماً دون استخدام أي سجلات بشرية، وفي ثلاثة أيام فقط تجاوز AlphaGo الأصلي الذي هزم لي سيدول، وفاز بنتيجة 100:0.

هذا ليس مجرد تقدم في الأرقام. إنه يمثل نموذجاً جديداً تماماً: الذكاء الاصطناعي لا يحتاج المعرفة البشرية، يمكنه اكتشاف كل شيء من الصفر.


لماذا لا يحتاج سجلات بشرية؟

قيود السجلات البشرية

عملية تدريب AlphaGo الأصلي كانت على مرحلتين:

  1. التعلم الإشرافي: تدريب Policy Network باستخدام 30 مليون مباراة بشرية
  2. التعلم المعزز: التحسين الإضافي من خلال اللعب الذاتي

هذه الطريقة لها عدة مشاكل جوهرية:

1. السجلات البشرية لها سقف

قوة لعب اللاعبين البشريين لها حدود، السجلات تحتوي على فهم البشر، وأيضاً أخطاء البشر وتحيزاتهم. عندما يتعلم الذكاء الاصطناعي من السجلات البشرية، فإنه يتعلم:

  • الحركات التي يعتقد البشر أنها جيدة (لكنها ليست بالضرورة الأمثل)
  • أنماط تفكير البشر (لكنها قد تحد من الابتكار)
  • أخطاء البشر (يتم تعلمها كعينات صحيحة)

2. عنق الزجاجة في التعلم الإشرافي

هدف التعلم الإشرافي هو "تقليد البشر" — التنبؤ بالحركة التي سيلعبها اللاعب البشري. هذا يعني أن سقف قدرة الذكاء الاصطناعي محدود بقدرة اللاعبين البشريين.

تماماً كمتدرب يمكنه فقط تقليد أستاذه، ولا يستطيع أبداً تجاوز أستاذه.

3. تكلفة جمع البيانات

السجلات البشرية عالية الجودة تحتاج سنوات عديدة للتراكم، وهي موجودة فقط في ألعاب ذات تاريخ طويل مثل الغو. إذا أردنا تطبيق الذكاء الاصطناعي على مجالات جديدة (مثل التنبؤ ببنية البروتينات)، فلا توجد "سجلات خبراء بشريين" للاستخدام.

اختراق Zero

AlphaGo Zero تخطى مرحلة التعلم الإشرافي تماماً، وبدأ اللعب الذاتي مباشرة من تهيئة عشوائية. هذا حل جميع المشاكل المذكورة:

المشكلةAlphaGo الأصليAlphaGo Zero
سقف المعرفة البشريةمحدود بجودة السجلاتلا يوجد هذا القيد
هدف التعلمتقليد البشرتعظيم نسبة الفوز
متطلبات البيانات30 مليون سجل0
قابلية التعميمالغو فقطقابل للتعميم على مجالات أخرى

هذا تحول جذري في النموذج: من "تعلم المعرفة البشرية" إلى "اكتشاف المعرفة من المبادئ الأولى".


المقارنة مع AlphaGo الأصلي: 100:0

الفوز الساحق

جعلت DeepMind AlphaGo Zero المدرب يلعب ضد إصدارات مختلفة من AlphaGo:

الخصمنتيجة AlphaGo Zero
AlphaGo Fan (الإصدار الذي هزم فان هوي)100:0
AlphaGo Lee (الإصدار الذي هزم لي سيدول)100:0
AlphaGo Master (إصدار 60 انتصاراً متتالياً)89:11

100:0 — هذا يعني أنه في 100 مباراة، لم يستطع AlphaGo الأصلي الفوز ولو مباراة واحدة.

موارد أقل، قوة أكبر

ليس فقط الفوز، AlphaGo Zero حقق قوة أكبر بموارد أقل:

المؤشرAlphaGo LeeAlphaGo Zero
وقت التدريبعدة أشهر40 يوماً (3 أيام لتجاوز AlphaGo Lee)
عدد المباريات التدريبية30 مليون سجل بشري + لعب ذاتي4.9 مليون لعب ذاتي
عدد TPUs (التدريب)50+4
عدد TPUs (الاستنتاج)484
ميزات الإدخال48 مستوى17 مستوى
الشبكة العصبيةشبكتا SL + RLشبكة مزدوجة الرأس واحدة

هذا تحسين مذهل في الكفاءة: الموارد أقل بأكثر من 10 مرات، لكن قوة اللعب أعلى بكثير.

لماذا Zero أقوى؟

يمكن فهم قوة AlphaGo Zero الأكبر من عدة زوايا:

1. التعلم بدون تحيز

AlphaGo الأصلي تعلم من السجلات البشرية، وورث تحيزات البشر. على سبيل المثال، اللاعبون البشريون قد يبالغون في أهمية بعض الجوسيكي، أو يقيّمون بعض الأوضاع بشكل خاطئ.

AlphaGo Zero ليس لديه هذه الأعباء. بدأ من صفحة بيضاء، يتعلم فقط من خلال نتائج الفوز والخسارة ما هي الحركات الجيدة. هذا سمح له باكتشاف حركات لم يفكر فيها البشر أبداً.

2. هدف تعلم متسق

تدريب AlphaGo الأصلي كان له هدفان مختلفان:

  • التعلم الإشرافي: تعظيم دقة التنبؤ بحركات البشر
  • التعلم المعزز: تعظيم نسبة الفوز

هذان الهدفان قد يتعارضان. AlphaGo Zero له هدف واحد فقط: تعظيم نسبة الفوز. هذا يجعل عملية التعلم أكثر اتساقاً وفعالية.

3. بنية أبسط

AlphaGo الأصلي استخدم Policy Network و Value Network منفصلين. AlphaGo Zero يستخدم شبكة مزدوجة الرأس واحدة (انظر المقال التالي للتفاصيل)، مما يسمح بمشاركة تمثيل الميزات، ويحسن كفاءة التعلم.


ميزات الإدخال المبسطة: من 48 إلى 17

48 مستوى ميزات في AlphaGo الأصلي

إدخال الشبكة العصبية في AlphaGo الأصلي كان يتضمن 48 مستوى ميزات 19x19، تشفر كمية كبيرة من الميزات المصممة بشرياً:

الفئةعدد الميزاتالمحتوى
موقع الأحجار3أحجار سوداء، أحجار بيضاء، نقاط فارغة
الحريات8سلاسل بـ 1-8 حريات
الأسر8يمكن أسر 1-8 حجر
الكو1موقع الكو
المسافة من الحافة4من الخط الأول إلى الرابع
قانونية الحركة1أين يمكن اللعب
الحالة التاريخية8مواقع آخر 8 حركات
الدور1الأسود أو الأبيض
أخرى14المطاردة، العيون، إلخ

هذه الـ 48 ميزة صممها خبراء الغو بعناية، تحتوي على كمية كبيرة من المعرفة المجالية.

17 مستوى ميزات في AlphaGo Zero

AlphaGo Zero بسّط الإدخال بشكل كبير، يستخدم 17 مستوى ميزات فقط:

رقم المستوىالمحتوىالعدد
1-8موقع الأحجار السوداء (آخر 8 حركات)8
9-16موقع الأحجار البيضاء (آخر 8 حركات)8
17الدور الحالي (كلها 1 أو كلها 0)1

هذه الـ 17 ميزة تتضمن فقط:

  • حالة اللوحة الحالية: كل موقع به حجر أسود، أبيض، أو فارغ
  • معلومات تاريخية: حالة اللوحة في آخر 8 حركات
  • معلومات الدور: دور من الآن

لا حريات، لا حكم مطاردة، لا مسافة من الحافة — كل هذه "المعرفة بالغو" تُترك للشبكة العصبية لتتعلمها بنفسها.

لماذا التبسيط جيد؟

1. ترك الشبكة تكتشف الميزات بنفسها

الميزات اليدوية المعقدة قد تفوّت معلومات مهمة، أو تشفّر افتراضات خاطئة. ترك الشبكة العصبية تتعلم من البيانات الخام، قد تكتشف تمثيلات ميزات أفضل.

في الواقع، AlphaGo Zero تعلم جميع الميزات التي صممها البشر (الحريات، المطاردة، إلخ)، وتعلم أيضاً بعض الأنماط التي لم يكن البشر واعين بها صراحة.

2. قابلية تعميم أفضل

كثير من الـ 48 ميزة خاصة بالغو (مثل المطاردة، مسافة الحافة). الـ 17 ميزة المبسطة عامة — أي لعبة لوحة يمكن تشفيرها بطريقة مماثلة.

هذا وضع الأساس لـ AlphaZero اللاحق (ذكاء ألعاب عام).

3. تقليل الأخطاء البشرية

الميزات المصممة يدوياً قد تحتوي على تعريفات خاطئة أو غير كاملة. تبسيط الإدخال يزيل إمكانية هذه المشاكل.


بنية الشبكة الواحدة

تصميم الشبكتين في النسخة الأصلية

AlphaGo الأصلي استخدم شبكتين عصبيتين مستقلتين:

Policy Network:  الإدخال → CNN → احتمالية 19x19 للحركة
Value Network: الإدخال → CNN → تقدير نسبة الفوز (-1 إلى 1)

هاتان الشبكتان:

  • لهما بنيات مختلفة (عدد الطبقات، عدد القنوات يختلف قليلاً)
  • تُدربان بشكل مستقل (Policy أولاً، ثم Value)
  • لا تشتركان في أي معاملات

شبكة مزدوجة الرأس في Zero

AlphaGo Zero يستخدم شبكة واحدة، لكن برأسين إخراج (heads):

الإدخال → عمود ResNet المشترك → Policy Head → احتمالية 19x19 للحركة
→ Value Head → تقدير نسبة الفوز

الرأسان يشتركان في نفس عمود ResNet (انظر المقال التالي: الشبكة مزدوجة الرأس وشبكة الباقي للتفاصيل)، وهذا يجلب عدة فوائد:

1. كفاءة المعاملات

العمود المشترك يعني أن معظم المعاملات تُستخدم من قبل المهمتين. هذا يقلل إجمالي عدد المعاملات، ويقلل خطر الإفراط في التكيف.

2. مشاركة الميزات

"أين يجب اللعب" (Policy) و"من سيفوز" (Value) يحتاجان فهم أنماط لوحة مشابهة. العمود المشترك يسمح بتعلم واستخدام هذه الميزات من قبل المهمتين في نفس الوقت.

3. استقرار التدريب

التدريب المشترك يجعل إشارات التدرج تأتي من مصدرين، مما يوفر إشراف أغنى، ويجعل التدريب أكثر استقراراً.

قوة شبكة الباقي

عمود AlphaGo Zero يستخدم شبكة باقي بـ 40 طبقة (ResNet)، أعمق بكثير من CNN بـ 13 طبقة في AlphaGo الأصلي.

اتصالات الباقي (skip connections) تسمح للشبكات العميقة بالتدريب بفعالية، وتتجنب مشكلة تلاشي التدرج. هذه تقنية اختراقية من مسابقة ImageNet 2015، طُبقت بنجاح في AlphaGo Zero على مجال الغو.


تحسين كفاءة التدريب

النمو الأسي للعب الذاتي

عملية تدريب AlphaGo Zero أظهرت كفاءة مذهلة:

وقت التدريبتقييم ELOيعادل
0 ساعة0لعب عشوائي
3 ساعات~1000اكتشاف القواعد الأساسية
12 ساعة~3000اكتشاف الجوسيكي
36 ساعة~4500تجاوز إصدار فان هوي
60 ساعة~5200تجاوز إصدار لي سيدول
72 ساعة~5400تجاوز AlphaGo الأصلي
40 يوماً~5600الإصدار الأقوى

تجاوز البشر في ثلاثة أيام، تجاوز الذكاء الاصطناعي الذي استغرق أشهراً في التدريب في ثلاثة أيام — هذا تحسين أسي في الكفاءة.

لماذا بهذه السرعة؟

1. إرشاد بحث أقوى

MCTS في AlphaGo Zero موجه بالكامل بالشبكة العصبية، لم يعد يستخدم استراتيجية اللعب السريع (rollout). هذا يجعل البحث أكثر كفاءة ودقة.

2. لعب ذاتي أسرع

بما أنه يحتاج شبكة واحدة فقط (بدلاً من اثنتين)، تكلفة حساب كل مباراة لعب ذاتي أقل. هذا يعني إمكانية توليد بيانات تدريب أكثر في نفس الوقت.

3. تعلم أكثر فعالية

التدريب المشترك للشبكة مزدوجة الرأس يجعل معلومات كل مباراة تُستخدم بشكل أكثر فعالية. تدرجات Policy و Value تقوي بعضها البعض، وتسرع التقارب.

المقارنة مع التعلم البشري

كم يحتاج اللاعب البشري من الوقت للوصول إلى مستويات مختلفة؟

المستوىالوقت البشريAlphaGo Zero
المبتدئعدة أسابيعدقائق
دان هاوٍسنواتساعات
مستوى احترافي10-20 سنة1-2 يوم
بطل العالم20+ سنة تفرغ كامل3 أيام
تجاوز البشرمستحيل3 أيام

هذه المقارنة ليست للتقليل من اللاعبين البشريين — هم يستخدمون خلايا عصبية بيولوجية، بينما AlphaGo Zero يستخدم TPUs مصممة خصيصاً وعدة آلاف واط من الطاقة. لكنها تُظهر مدى كفاءة طريقة التعلم الصحيحة.


العمومية: الشطرنج، الشوغي

ولادة AlphaZero

في ديسمبر 2017، نشرت DeepMind AlphaZero — النسخة العامة من AlphaGo Zero. نفس الخوارزمية، بتعديل قواعد اللعبة فقط، تستطيع الوصول إلى مستوى عالمي في ثلاث ألعاب:

اللعبةوقت التدريبالخصمالنتيجة
الغو8 ساعاتAlphaGo Zero60:40
الشطرنج4 ساعاتStockfish 828 فوز 72 تعادل 0 خسارة
الشوغيساعتانElmo90:8:2

لاحظ الخصوم هنا:

  • Stockfish كان أقوى محرك شطرنج في ذلك الوقت، يستخدم عقوداً من المعرفة البشرية والتحسينات
  • Elmo كان أقوى ذكاء شوغي اصطناعي في ذلك الوقت

AlphaZero بساعات قليلة من التدريب، تجاوز هذه الأنظمة المتخصصة التي استغرقت سنوات في التطوير.

أهمية العمومية

AlphaGo Zero / AlphaZero أثبتا شيئاً مهماً:

نفس خوارزمية التعلم، يمكنها الوصول إلى مستوى فوق بشري في مجالات مختلفة.

هذا ليس ثلاثة ذكاءات اصطناعية مختلفة، بل إطار تعلم عام واحد:

  1. اللعب الذاتي يولّد الخبرة
  2. بحث شجرة مونت كارلو يستكشف الاحتمالات
  3. الشبكة العصبية تتعلم دالة السياسة والقيمة
  4. التعلم المعزز يحسّن دالة الهدف

هذا الإطار لا يعتمد على معرفة مجال محدد، وهذا خطوة مهمة نحو تعميم الذكاء الاصطناعي.

التأثير على الذكاء الاصطناعي التقليدي

قبل AlphaZero، أقوى ذكاء اصطناعي في الشطرنج والشوغي كان من نمط "النظام الخبير":

  • معرفة بشرية كثيرة: مكتبات افتتاحية، مكتبات نهاية، دوال تقييم
  • عقود من التحسين: جهود لاعبين ومهندسين لا تُحصى
  • تخصص شديد: Stockfish لا يستطيع لعب الغو، Elmo لا يستطيع لعب الشطرنج

AlphaZero بخوارزمية عامة واحدة تجاوز كل هذا في ساعات. هذا جعل كثيراً من باحثي الذكاء الاصطناعي يعيدون التفكير:

هل يجب أن نستثمر جهداً أكثر في "خوارزميات التعلم العامة" أم "تشفير المعرفة الخبيرة"؟

الجواب يبدو أوضح وأوضح: ترك الآلة تتعلم بنفسها أكثر فعالية من تعليمها المعرفة.


أسلوب لعب AlphaGo Zero

جماليات تتجاوز البشر

مجتمع الغو لديه تقييم عام لحركات AlphaGo Zero: أكثر جمالاً.

حركات AlphaGo Lee كانت تبدو أحياناً "غريبة" — مثل الحركة 37، البشر احتاجوا تحليلاً لاحقاً لفهم روعتها. لكن حركات AlphaGo Zero غالباً ما تُقيَّم لاحقاً بأنها "واضحة أنها جيدة من النظرة الأولى".

قد يكون هذا بسبب:

  1. قوة لعب أكبر: Zero يرى أعمق، يلعب بأريحية أكبر
  2. بدون تحيز بشري: غير مقيد بالجوسيكي التقليدي
  3. هدف متسق: يسعى فقط لنسبة الفوز، لا يقلد البشر

إعادة اكتشاف نظرية الغو البشرية

المثير للاهتمام، AlphaGo Zero خلال التدريب "أعاد اكتشاف" معرفة الغو التي راكمها البشر آلاف السنين:

  • الجوسيكي: Zero اكتشف بنفسه كثيراً من الجوسيكي الشائعة، لأنها فعلاً الحل الأمثل للطرفين
  • مبادئ الفوسيكي (الافتتاح): ترتيب أهمية الزاوية، الحافة، الوسط
  • معرفة شكل الأحجار: الفرق بين الشكل السيء والجيد

هذا يؤكد معقولية نظرية الغو البشرية — هذه المعرفة ليست صدفة، بل انعكاس لجوهر الغو.

ابتكار يتجاوز البشر

لكن Zero اكتشف أيضاً حركات لم يفكر فيها البشر أبداً:

  • افتتاحيات غير تقليدية: تنويعات على الافتتاحيات التقليدية
  • تضحية عدوانية: أكثر استعداداً من البشر للتخلي عن المحلي مقابل ميزة شاملة
  • أشكال معاكسة للحدس: ما يبدو "شكلاً سيئاً" هو في الواقع الحل الأمثل

هذه الابتكارات تغيّر فهم البشر للغو. كثير من اللاعبين المحترفين أفادوا أن دراسة سجلات AlphaGo Zero أعطتهم فهماً جديداً تماماً للغو.


ملخص التفاصيل التقنية

المقارنة الكاملة مع AlphaGo الأصلي

الجانبAlphaGo (الأصلي)AlphaGo Zero
بيانات التدريبسجلات بشرية + لعب ذاتيلعب ذاتي نقي
طريقة التعلمتعلم إشرافي + تعلم معززتعلم معزز نقي
ميزات الإدخال48 مستوى17 مستوى
بنية الشبكةPolicy/Value منفصلةResNet مزدوجة الرأس
عمق الشبكة13 طبقة40 طبقة (أو أكثر)
تقييم MCTSشبكة عصبية + Rolloutشبكة عصبية نقية
عدد البحث~100,000 لكل حركة~1,600 لكل حركة
TPUs للتدريب50+4
TPUs للاستنتاج484 (قابل للتوسع)

الخوارزمية الأساسية

دورة تدريب AlphaGo Zero بسيطة جداً:

1. اللعب الذاتي
- استخدام الشبكة الحالية لـ MCTS
- اختيار الحركة حسب احتمالية بحث MCTS
- تسجيل (الوضع، احتمالية MCTS، نتيجة الفوز/الخسارة) لكل حركة

2. تدريب الشبكة
- أخذ عينات من مجمع الخبرة
- Policy Head: تقليل الإنتروبيا المتقاطعة مع احتمالية MCTS
- Value Head: تقليل الخطأ التربيعي المتوسط مع الفوز/الخسارة الفعلي
- تحسين الهدفين معاً

3. تحديث الشبكة
- استبدال الشبكة القديمة بالجديدة (التحقق بالمباراة أن الشبكة الجديدة أقوى)
- العودة للخطوة 1

هذه الدورة تستمر، والشبكة تصبح أقوى باستمرار. بدون بيانات بشرية، بدون معرفة بشرية، فقط قواعد اللعبة وهدف الفوز/الخسارة.


دروس لأبحاث الذكاء الاصطناعي

التعلم من المبادئ الأولى

AlphaGo Zero أظهر طريقة تعلم "المبادئ الأولى":

لا تخبر الذكاء الاصطناعي كيف يفعل، فقط أخبره ما هو الهدف، ودعه يكتشف الطريقة بنفسه.

هذا يتناقض بشكل صارخ مع طريقة النظام الخبير التقليدي. النظام الخبير يحاول تشفير المعرفة البشرية في الذكاء الاصطناعي، بينما AlphaGo Zero يدع الذكاء الاصطناعي يكتشف المعرفة بنفسه.

النتيجة هي: المعرفة التي يكتشفها الذكاء الاصطناعي قد تكون أكثر اكتمالاً ودقة من المعرفة البشرية.

قوة اللعب الذاتي

AlphaGo Zero أثبت أن اللعب الذاتي يمكنه توليد بيانات تدريب لا نهائية، وجودة هذه البيانات تتحسن مع تحسن الشبكة.

هذه "دورة إيجابية":

  • شبكة أقوى → بيانات لعب ذاتي أفضل
  • بيانات أفضل → شبكة أقوى

هذه الدورة يمكن أن تستمر حتى الوصول إلى الحد النظري للعبة (إن وجد).

أهمية التبسيط

نجاح AlphaGo Zero أثبت أهمية "التبسيط":

  • تبسيط الإدخال (48 → 17)
  • تبسيط البنية (شبكتان → شبكة واحدة)
  • تبسيط التدريب (إشرافي + معزز → معزز نقي)

كل تبسيط جعل النظام أقوى. هذا يعلمنا: المعقد لا يساوي الجيد، أبسط الحلول غالباً أفضلها.


تطابق الرسوم المتحركة

المفاهيم الأساسية في هذه المقالة ورقم الرسوم المتحركة المقابل:

الرقمالمفهومالتطابق الفيزيائي/الرياضي
🎬 E7التدريب من الصفرظاهرة التنظيم الذاتي
🎬 E5اللعب الذاتيتقارب النقطة الثابتة
🎬 E12منحنى نمو قوة اللعبنمو S-شكل
🎬 D12شبكة الباقيطريق التدرج السريع

قراءة موسعة


المراجع

  1. Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
  2. Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
  3. DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
  4. Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.