انتقل إلى المحتوى الرئيسي

ولادة AlphaGo

في مارس 2016، عندما هزم AlphaGo لي سيدول بنتيجة 4:1، سأل العالم بأسره: كيف وُلد هذا البرنامج الذي غيّر تاريخ الذكاء الاصطناعي؟

الإجابة تبدأ من حلم طفل معجزة في الشطرنج.


تأسيس DeepMind

ديميس هاسابيس: من طفل معجزة إلى رائد الذكاء الاصطناعي

ديميس هاسابيس هو المؤسس المشارك والرئيس التنفيذي لـ DeepMind. تجربة حياته كانت كأنها مُعدة لإنشاء AlphaGo.

طفل معجزة في الشطرنج

وُلد هاسابيس في لندن عام 1975، تعلم لعب الشطرنج في سن الرابعة ووصل إلى مستوى أستاذ الشطرنج (Elo 2300+) في سن 13، ليصبح ثاني أصغر شخص يصل إلى هذا المستوى في تاريخ بريطانيا.

هذه التجربة أعطته فهماً عميقاً:

  • ألعاب الطاولة اختبار للذكاء: لعب الشطرنج يتطلب التخطيط، الحدس، والتعرف على الأنماط
  • جوهر الذكاء البشري: كيف يجد اللاعبون حركات جيدة بين احتمالات ضخمة؟
  • حدود الكمبيوتر: فوز Deep Blue على كاسباروف عام 1997 اعتمد على البحث بالقوة الغاشمة، وليس "الفهم" الحقيقي

مصمم ألعاب

في سن 17، انضم هاسابيس إلى Bullfrog Productions (شركة ألعاب أسسها بيتر مولينو، مبتكر "Populous")، شارك في تطوير اللعبة الكلاسيكية "Theme Park". هذه التجربة علمته:

  • كيفية تصميم الأنظمة المعقدة: الألعاب هي نماذج مبسطة تحاكي العالم الحقيقي
  • التنبؤ بسلوك اللاعبين: الذكاء الاصطناعي يحتاج لفهم عملية اتخاذ القرار البشري

عالم أعصاب إدراكي

بعد حصوله على درجة علوم الكمبيوتر من كامبريدج، حصل هاسابيس على الدكتوراه في علم الأعصاب الإدراكي من جامعة كوليدج لندن (UCL). كان موضوع بحثه: كيف يمكّن الحُصين البشر من التخيل والتخطيط.

اكتشف هذا البحث:

  • الذاكرة البشرية والخيال يستخدمان نفس منطقة الدماغ
  • نحن نخطط للمستقبل من خلال "السفر عبر الزمن الذهني"
  • هذه القدرة قد تكون جوهر الذكاء

هذه الرؤى أثرت مباشرة على تصميم AlphaGo لاحقاً — تمكين الذكاء الاصطناعي من "تخيل" الحركات المستقبلية والتعلم منها.

المؤسسون المشاركون

في 2010، أسس هاسابيس DeepMind مع شريكين:

المؤسسالخلفيةالمساهمة
ديميس هاسابيسعلم الأعصاب، تصميم الألعابالرؤية والاستراتيجية
شين ليجدكتوراه التعلم الآليالأساس النظري لـ AGI
مصطفى سليمانرائد أعمال اجتماعيالأعمال والتطبيقات

"حل الذكاء، ثم استخدام الذكاء لحل كل شيء"

بيان مهمة DeepMind هو:

"Solve intelligence, and then use that to solve everything else."

"حل الذكاء، ثم استخدامه لحل كل شيء آخر."

هذه ليست شركة ذكاء اصطناعي عادية. هدفهم ليس صنع منتجات، بل إنشاء الذكاء الاصطناعي العام (AGI) — ذكاء اصطناعي يمكنه التفكير والتعلم وحل أي مشكلة مثل البشر.

لماذا "حل الذكاء" أولاً؟ لأنه بمجرد أن نحصل على AGI، يمكنه مساعدتنا في حل أكبر تحديات البشرية: تغير المناخ، الأمراض، الطاقة.


الإنجازات المبكرة: ألعاب Atari

قبل تحدي غو، أثبتت DeepMind أولاً قدراتها — باستخدام الذكاء الاصطناعي للعب ألعاب Atari.

DQN: الذكاء الاصطناعي الذي تعلم اللعب

في 2013، نشرت DeepMind خوارزمية DQN (Deep Q-Network). هذا الذكاء الاصطناعي كان قادراً على:

  1. رؤية بكسلات الشاشة فقط — بدون إعطائه أي قواعد للعبة
  2. التعلم بنفسه للعب — من خلال التجربة والخطأ
  3. الوصول لمستوى البشر — وحتى تجاوز البشر في بعض الألعاب

في Breakout، تعلم DQN استراتيجية يحتاج البشر ساعات لاكتشافها: حفر نفق للسماح للكرة بالمرور خلف الطوب، وإزالة الكثير دفعة واحدة.

هذا أثبت أن الجمع بين التعلم العميق + التعلم المعزز يمكنه اكتشاف استراتيجيات لم يفكر فيها البشر أبداً.

لماذا البدء من الألعاب؟

اختار هاسابيس الألعاب كمنصة بحثية لعدة أسباب:

  1. بيئة قابلة للتحكم: الألعاب لها قواعد وأهداف واضحة
  2. تقدم قابل للقياس: هناك نقاط موضوعية لتقييم قدرة الذكاء الاصطناعي
  3. معيار بشري: يمكن المقارنة مع اللاعبين البشر
  4. التنوع: ألعاب مختلفة تختبر قدرات مختلفة

هذه المنهجية طُبقت لاحقاً على غو.


استحواذ Google

رهان الـ 500 مليون دولار

في يناير 2014، استحوذت Google على DeepMind بحوالي 500 مليون دولار. كان هذا أحد أكبر عمليات الاستحواذ في مجال الذكاء الاصطناعي في ذلك الوقت.

لماذا كانت Google مستعدة لدفع هذا المبلغ لشركة تضم 75 شخصاً فقط وبدون منتجات؟

الإجابة في نظرية الألعاب:

  • Facebook كانت تنافس أيضاً: الشائعات تقول إن Facebook عرضت 400 مليون دولار
  • الذكاء الاصطناعي هو تقنية المستقبل الرئيسية: من يسيطر على الذكاء الاصطناعي أولاً، يسيطر على المستقبل
  • DeepMind هو أفضل فريق: أثبتوا جدوى التعلم المعزز العميق

تدخل لاري بيج، الرئيس التنفيذي لـ Google، شخصياً لإقناع هاسابيس باختيار Google بدلاً من Facebook.

شروط الاستحواذ

تفاوض هاسابيس على عدة شروط مهمة:

  1. عمليات مستقلة: احتفظت DeepMind بمقرها في لندن، بحث وتطوير مستقل
  2. حرية أكاديمية: يمكنهم نشر الأوراق البحثية، بدلاً من الحفاظ على كل شيء سري
  3. لجنة أخلاقيات: إنشاء آلية مراجعة أخلاقية للذكاء الاصطناعي
  4. بحث طويل المدى: لا ضغط للتسويق قصير المدى

هذه الشروط مكّنت DeepMind من متابعة أبحاث طويلة المدى وعالية المخاطر — مثل غزو غو بالذكاء الاصطناعي.

استراتيجية Google للذكاء الاصطناعي

استحواذ DeepMind كان جزءاً من استراتيجية "الذكاء الاصطناعي أولاً" لـ Google:

السنةالحدث
2011تأسيس Google Brain
2013استحواذ DNNresearch (فريق Hinton)
2014استحواذ DeepMind
2015TensorFlow مفتوح المصدر
2016إطلاق TPU

أدركت Google: البحث، الإعلانات، الترجمة، الصوت — كل الأعمال الأساسية ستُعاد تشكيلها بالذكاء الاصطناعي. من يملك أفضل ذكاء اصطناعي سيكون الفائز.


اختيار غو كهدف

لماذا غو؟

بعد أن استحوذت عليها Google، حصلت DeepMind على المزيد من الموارد. قرر هاسابيس تحدي هدف يبدو مستحيلاً: استخدام الذكاء الاصطناعي لهزيمة بطل العالم البشري في غو.

لماذا اختار غو، وليس مشاكل أخرى؟

1. غو هو "الكأس المقدسة للذكاء الاصطناعي"

قبل 2016، كان الخبراء يعتقدون عموماً أن الذكاء الاصطناعي يحتاج 10-20 سنة على الأقل لهزيمة البشر في غو. كانت غو تُسمى "آخر حصن للذكاء الاصطناعي".

الأسباب:

  • مساحة بحث ضخمة: 10^170 وضع ممكن (عدد الذرات في الكون هو 10^80 فقط)
  • التقييم صعب: على عكس الشطرنج، لا توجد قيم واضحة للقطع
  • الاعتماد على الحدس: اللاعبون المتميزون غالباً يقولون "هذه الحركة تبدو صحيحة"، لكنهم لا يستطيعون شرح السبب

2. درس Deep Blue

في 1997، هزم Deep Blue من IBM بطل الشطرنج العالمي كاسباروف. لكن هذا الفوز كان مثيراً للجدل:

  • Deep Blue اعتمد على البحث بالقوة الغاشمة (تقييم 200 مليون وضع في الثانية)
  • استخدم دوال تقييم صممها خبراء بشر
  • هذا لم يكن "ذكاء" حقيقي، بل "قوة حسابية"

أراد هاسابيس إثبات: الذكاء الاصطناعي يمكنه حل المشاكل من خلال التعلم، وليس القوة الغاشمة.

3. هدف قابل للقياس

غو لديها نظام تصنيف دولي (Elo rating) ولاعبون محترفون، مما يوفر معايير قياس موضوعية. إذا استطاع الذكاء الاصطناعي هزيمة بطل العالم، فسيكون نجاحاً لا جدال فيه.

4. الارتباط بعلم الأعصاب

حدس اللاعبين البشر — النظر إلى اللوحة ومعرفة المواقع المهمة فوراً — هو بالضبط القدرة التي أراد هاسابيس تكرارها مع الذكاء الاصطناعي. غو هو السيناريو المثالي لاختبار "حدس الآلة".


فريق AlphaGo

الشخصيات الرئيسية

نجاح AlphaGo جاء من فريق متعدد التخصصات:

ديفيد سيلفر: الباحث الرئيسي

ديفيد سيلفر هو المؤلف الأول لورقة AlphaGo وخبير بارز في التعلم المعزز.

  • الخلفية: خريج رياضيات من كامبريدج، دكتوراه في التعلم المعزز من جامعة ألبرتا
  • المشرف: ريتشارد سوتون (أب التعلم المعزز)
  • التخصص: Monte Carlo Tree Search، التعلم بالفرق الزمني

بحث سيلفر في غو الكمبيوتر في أطروحة الدكتوراه، لكن التقنية آنذاك لم تكن ناضجة. بعد انضمامه لـ DeepMind، حصل أخيراً على فرصة تحقيق هذا الحلم.

آجا هوانغ: خبير غو

آجا هوانغ (هوانغ شيه-جيه) تايواني، لاعب هاوٍ 6 دان، ورائد في مجال غو الكمبيوتر.

  • الخلفية: دكتوراه علوم الكمبيوتر من جامعة تايوان الوطنية للمعلمين
  • التخصص: برمجة غو الكمبيوتر
  • عمل مشهور: Erica (برنامج غو كمبيوتر مبكر)

لعب هوانغ دوراً محورياً في فريق AlphaGo: هو لم يفهم غو فحسب، بل الذكاء الاصطناعي أيضاً. في المباريات ضد لي سيدول، كان هو من يشغّل AlphaGo.

أعضاء رئيسيون آخرون

العضوالدور
كريس ج. ماديسونخبير Monte Carlo Tree Search
آرثر جويزباحث التعلم المعزز
لوران سيفرمهندس التعلم العميق
جورج فان دن دريشهمهندس الأنظمة الموزعة

التعاون متعدد التخصصات

نجاح AlphaGo أثبت قوة التعاون متعدد التخصصات:

  • خبراء غو قدموا معرفة المجال
  • باحثو التعلم الآلي صمموا الخوارزميات
  • المهندسون نفذوا أنظمة تدريب واسعة النطاق
  • علماء الأعصاب قدموا الإلهام النظري

تركيبة الفريق هذه أصبحت لاحقاً المعيار في DeepMind.


النشر في Nature

المفاجأة السرية

في 27 يناير 2016، نشرت DeepMind ورقة في المجلة الأكاديمية المرموقة Nature:

"Mastering the game of Go with deep neural networks and tree search"

أعلنت الورقة أن AlphaGo قد:

  1. هزم جميع برامج غو الأخرى
  2. هزم بطل أوروبا فان هوي (محترف 2 دان) بنتيجة 5:0

هذا الخبر أذهل العالم. قبل نشر الورقة، لم يكن أحد يعلم أن DeepMind تبحث في غو.

المساهمات الرئيسية للورقة

ورقة Nature وصفت ثلاث ابتكارات رئيسية لـ AlphaGo:

1. شبكة السياسة (Policy Network)

استخدام شبكات عصبية تلافيفية عميقة للتنبؤ بالحركة التالية للاعبين البشر. بيانات التدريب جاءت من 30 مليون مباراة بشرية.

الدقة: 57% (التنبؤ بالحركة التالية للخبراء البشر)

هذا أعلى بأكثر من 10 نقاط مئوية من أفضل برامج غو الكمبيوتر السابقة.

2. شبكة القيمة (Value Network)

استخدام شبكة عصبية أخرى لتقييم معدل الفوز للوضع الحالي. هذا استبدل المحاكاة العشوائية التقليدية (Monte Carlo rollout).

الدقة: تعادل 15,000 محاكاة عشوائية، لكن أسرع بـ 15,000 مرة

دمج الشبكتين العصبيتين في إطار MCTS:

  • شبكة السياسة توجه اتجاه البحث
  • شبكة القيمة تقيّم العقد الورقية

هذا أعطى AlphaGo كلاً من "الحدس" (الشبكات العصبية) و"التفكير" (البحث في الشجرة).

رد فعل المجتمع الأكاديمي

بعد نشر الورقة، تفاعل المجتمع الأكاديمي بحماس:

"هذه لحظة الهبوط على القمر للذكاء الاصطناعي." — ستيوارت راسل، أستاذ في UC Berkeley، مؤلف كتاب الذكاء الاصطناعي

"كنت أعتقد أن الأمر سيستغرق 10 سنوات أخرى، لم أتوقع أنه سيكون بهذه السرعة." — مارتن مولر، خبير غو الكمبيوتر

لكن البعض كان متشككاً:

"فان هوي محترف 2 دان فقط، وليس لاعباً من الطراز الأول حقاً. دع AlphaGo يلعب ضد لي سيدول أولاً."

قبلت DeepMind هذا التحدي.


تحدي لي سيدول

لماذا لي سيدول؟

لي سيدول لاعب كوري، يُعتبر أحد أقوى اللاعبين في العقد الماضي:

المقياسالبيانات
ألقاب بطل العالم18
بطولات دولية32
أعلى تصنيف عالمي#1
الأسلوب"العبقري" "الحاسب الإلهي"

باختيار لي سيدول، كانت DeepMind تتحدى أقوى خصم بشري.

جائزة المليون دولار

قدمت Google جائزة مليون دولار لهذه المباراة:

  • إذا فاز لي سيدول: الجائزة له
  • إذا فاز AlphaGo: الجائزة تُتبرع لليونيسف، تعليم STEM، وجمعيات خيرية أخرى

لم يكن هذا مجرد عرض تقني، بل حدث رياضي يجذب الاهتمام العالمي.

التوقعات قبل المباراة

قبل المباراة، توقع معظم اللاعبين المحترفين أن لي سيدول سيفوز بسهولة:

"قد يفوز AlphaGo بمباراة واحدة، لكن في 5 مباريات سأفوز 5:0." — لي سيدول، مقابلة قبل المباراة

"الكمبيوترات تلعب بشكل جامد، اللاعبون المتميزون يمكنهم بسهولة إيجاد نقاط الضعف." — محترف 9 دان

لكن فريق DeepMind كان لديه رأي مختلف. كشف ديفيد سيلفر لاحقاً:

"في اختباراتنا الداخلية، لعب AlphaGo 500 مباراة ضد النسخة التي واجهت فان هوي. النسخة الجديدة فازت في 499."


مارس 2016: خمس مباريات غيّرت العالم

المباراة الأولى: الصدمة تبدأ

9 مارس 2016، فندق Four Seasons، سيول.

لعب لي سيدول بالأسود أولاً، AlphaGo بالأبيض. بعد 3 ساعات و28 دقيقة من اللعب، فاز AlphaGo بالاستسلام في منتصف المباراة.

كانت هذه المرة الأولى التي يخسر فيها لاعب بشري نخبوي رسمياً أمام الذكاء الاصطناعي.

المباراة الثانية: الحركة الإلهية

المباراة الثانية أنتجت ما عُرف بـ "الحركة الإلهية" في الحركة 37 — قام AlphaGo بـ shoulder hit في الصف الخامس الذي اعتقد جميع اللاعبين المحترفين أنه خطأ، لكنه أثبت أنه مفتاح النصر.

(انظر التفاصيل في المقالة التالية: تحليل معمق "للحركة الإلهية")

فاز AlphaGo مرة أخرى.

المباراة الثالثة: 3:0

في المباراة الثالثة، جرّب لي سيدول افتتاحية غير تقليدية، لكن AlphaGo رد بسهولة. 3:0.

بدأ العالم يدرك: هذا ليس صدفة، الذكاء الاصطناعي تجاوز البشر حقاً.

المباراة الرابعة: الهجوم المضاد البشري

في المباراة الرابعة، قام لي سيدول بما عُرف بـ "الحركة الإلهية" في الحركة 78 — wedge رائع سبب ارتباكاً لـ AlphaGo.

لعب AlphaGo حركات سيئة واضحة في الحركات التالية واستسلم في النهاية.

هذا الفوز أثبت: الذكاء الاصطناعي لديه نقاط ضعف أيضاً. لي سيدول وجدها.

المباراة الخامسة: النتيجة النهائية

في المباراة الخامسة، عاد AlphaGo إلى وضعه الطبيعي وأنهى المباراة بفوز بالاستسلام في منتصف المباراة.

النتيجة النهائية: AlphaGo 4:1 لي سيدول


التأثير والعواقب

الاهتمام العالمي

تأثير هذه المباراة تجاوز عالم غو بكثير:

  • 200 مليون شخص حول العالم شاهدوا البث المباشر
  • نيويورك تايمز، الإيكونوميست ووسائل إعلام رئيسية أخرى قدمت تغطية واسعة
  • ارتفع سعر سهم Google خلال المباراة
  • أصبح "الذكاء الاصطناعي" أكثر موضوع تقني سخونة في ذلك العام

التأثير على عالم غو

بعد المباراة، تغير موقف اللاعبين المحترفين من "الازدراء" إلى "الاحترام":

"كنا نعتقد أن البشر يفهمون غو، الآن اكتشفنا أننا نعرف القليل فقط." — كي جي، لاعب صيني، #1 عالمياً آنذاك

بدأ العديد من اللاعبين المحترفين استخدام الذكاء الاصطناعي للتدريب، وتغيرت طريقة لعب غو نتيجة لذلك.

التأثير على مجال الذكاء الاصطناعي

أثبت AlphaGo عدة أشياء:

  1. التعلم العميق يمكنه حل مشاكل مستوى الخبراء: ليس فقط التعرف على القطط والكلاب، بل لعب غو أيضاً
  2. التعلم المعزز يمكنه تجاوز البشر: من خلال اللعب الذاتي، يمكن للذكاء الاصطناعي اكتشاف استراتيجيات لا يعرفها البشر
  3. الشبكات العصبية + البحث تركيبة قوية: الحدس + التفكير = ذكاء أقوى

هذه الرؤى طُبقت لاحقاً على:

  • AlphaFold: التنبؤ ببنية البروتين (إنجاز بمستوى نوبل 2020)
  • AlphaZero: ذكاء اصطناعي للألعاب العامة
  • MuZero: التعلم بدون قواعد

مطابقة الرسوم المتحركة

المفاهيم الأساسية المذكورة في هذه المقالة وأرقام الرسوم المتحركة:

الرقمالمفهومالمطابقة الفيزيائية/الرياضية
E7من الصفرالتنظيم الذاتي
E5اللعب الذاتيتقارب النقطة الثابتة
F8القدرات الناشئةالانتقال الطوري
H4تدرج السياسةالتحسين العشوائي

قراءات إضافية


المراجع

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
  3. Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
  4. وثائقي AlphaGo (2017)، المخرج غريغ كوس.