عصر AlphaGo (2015-2017)

من 2015 إلى 2017، حققت سلسلة برامج AlphaGo من Google DeepMind واحدة من أكثر الاختراقات رمزية في تاريخ الذكاء الاصطناعي. في عامين فقط، تحولت Go من "لعبة لا يمكن للذكاء الاصطناعي قهرها" إلى "مجال تجاوز فيه الذكاء الاصطناعي البشر تمامًا".

بين عامي 2015 و2017، هزم AlphaGo من DeepMind أولاً اللاعب المحترف Fan Hui عام 2015، ثم لي سيدول بنتيجة 4:1 عام 2016، وبعدها حقق سلسلة انتصارات على الإنترنت باسم Master وهزم Ke Jie عام 2017؛ وبفضل دمج الشبكات العصبية العميقة مع البحث الشجري بـ Monte Carlo، تجاوز الذكاء الاصطناعي مستوى البشر في Go تمامًا.

أكتوبر 2015: AlphaGo يهزم Fan Hui

المباراة السرية التاريخية

في أكتوبر 2015، في مكتب بلندن، رتبت DeepMind مباراة سرية. الخصم كان بطل Go الأوروبي، اللاعب المحترف من الدرجة الثانية Fan Hui.

النتيجة: AlphaGo فاز 5:0.

هذه كانت المرة الأولى في التاريخ التي يهزم فيها برنامج كمبيوتر لاعب Go محترف في ظروف عادلة (بدون منح أحجار). أُعلن الخبر رسميًا في يناير 2016، مما أحدث ضجة عالمية فورية.

تقنية AlphaGo الأصلي

هذه النسخة من AlphaGo استخدمت مزيجًا من تقنيتين رئيسيتين:

الشبكات العصبية العميقة: من خلال تعلم مئات الآلاف من مباريات المحترفين البشريين، تم تدريب "شبكة القيمة" لتقييم الأوضاع و"شبكة السياسة" للتنبؤ بالحركة التالية
البحث الشجري بـ Monte Carlo (MCTS): استخدام مخرجات الشبكة العصبية لتوجيه البحث، مما قلل بشكل كبير عدد التغيرات التي تحتاج للحساب

هذا المزيج من "الحدس" و"الحساب" هو بالضبط طريقة تفكير اللاعبين البشريين - لكن الذكاء الاصطناعي أفضل في كليهما.

مارس 2016: AlphaGo ضد Lee Sedol

مواجهة القرن

من 9 إلى 15 مارس 2016، لعب AlphaGo خمس مباريات ضد اللاعب العالمي الأول Lee Sedol في سيول. هذه المباراة جذبت أكثر من 200 مليون مشاهد حول العالم، لتصبح واحدة من أكثر الأحداث متابعة في تاريخ الذكاء الاصطناعي.

نتائج المباراة

المباراة	التاريخ	النتيجة	ملاحظات
المباراة 1	9 مارس	فوز AlphaGo	فوز في منتصف اللعبة
المباراة 2	10 مارس	فوز AlphaGo	فوز في منتصف اللعبة، الحركة 37 الشهيرة
المباراة 3	12 مارس	فوز AlphaGo	فوز في منتصف اللعبة
المباراة 4	13 مارس	فوز Lee Sedol	الحركة 78 "حركة الإله" من Lee Sedol
المباراة 5	15 مارس	فوز AlphaGo	فوز في منتصف اللعبة

النتيجة النهائية: AlphaGo 4:1 Lee Sedol

الحركة 37 في المباراة 2: "حركة الإله"

في المباراة الثانية، لعب AlphaGo حركة "shoulder hit" على اليمين حيّرت جميع المعلقين.

هذه الحركة بدت بلا معنى، لا تتوافق مع أي joseki بشرية معروفة. قدّر المعلقون احتمال أن يلعبها بشري بأقل من واحد في عشرة آلاف. ومع ذلك، مع تقدم المباراة، ظهر عمق هذه الحركة - كانت تؤثر على اتجاهات متعددة في نفس الوقت بكفاءة عالية جدًا.

هذه الحركة سُميت "حركة الإله"، ترمز إلى أن الذكاء الاصطناعي قد طوّر مفاهيم Go لا يمكن للبشر فهمها.

الحركة 78 في المباراة 4: انتقام البشر

بعد ثلاث خسائر متتالية، لعب Lee Sedol في المباراة الرابعة حركة مذهلة أيضًا - الحركة 78 "wedge".

هذه الحركة كانت tesuji ذكية، أنشأت تغيرًا لم يتوقعه AlphaGo في قتال معقد. بعد هذه الحركة، ظهر ارتباك واضح في AlphaGo، واستسلم في النهاية.

هذا هو الفوز الوحيد للبشر على AlphaGo في مباراة رسمية، وأصبحت حركة Lee Sedol هذه خالدة كرمز للذكاء البشري.

تأثير المباراة

تأثير هذه المباراة تجاوز عالم Go:

معلم في الذكاء الاصطناعي: أثبت أن التعلم العميق يمكنه التعامل مع مشاكل معقدة للغاية
اهتمام وطني في كوريا: حسب الإحصاءات، شاهد أكثر من نصف سكان كوريا المباراة
عصر جديد لـ Go: أدرك اللاعبون المحترفون أنهم يجب أن يتعلموا من الذكاء الاصطناعي
طفرة في الاستثمار التقني: دفعت الاستثمار العالمي في أبحاث الذكاء الاصطناعي

يناير 2017: Master يحقق 60 فوز متتالي

اللاعب الغامض على الإنترنت

من نهاية 2016 إلى بداية 2017، ظهر حساب باسم "Master" على مواقع Go مثل Yicheng وFox. هزم جميع المتحدين بسرعة مذهلة، بما في ذلك أفضل اللاعبين في العالم مثل Ke Jie وPark Junghwan وIyama Yuta.

النتيجة النهائية: 60 فوز في 60 مباراة (مباراة واحدة انتهت بالتعادل بسبب انقطاع الخصم)

بعد المباراة 60، أعلنت DeepMind رسميًا: Master هو النسخة الجديدة من AlphaGo.

المفاهيم الجديدة التي أظهرها Master

أسلوب Master كان مختلفًا بوضوح عن النسخة التي هزمت Lee Sedol قبل عام:

سرعة حساب أسرع: كل حركة في عشرات الثواني فقط
حركات أكثر جرأة: استخدام متكرر لحركات تعتبرها النظرية التقليدية "سيئة"
الدخول إلى 3-3 أصبح سائدًا: Master كان غالبًا يدخل مباشرة إلى 3-3 في الافتتاحية

هذه الحركات قلبت نظرية Go التي راكمها البشر لمئات السنين، وبدأ اللاعبون المحترفون يقلدون حركات الذكاء الاصطناعي بكثافة.

مايو 2017: AlphaGo ضد Ke Jie

التحدي البشري الأخير

في مايو 2017، في Wuzhen الصينية، لعب AlphaGo ثلاث مباريات ضد اللاعب الأول في العالم Ke Jie. اعتُبرت هذه "التحدي البشري الأخير".

نتائج المباراة

المباراة	التاريخ	النتيجة	ملاحظات
المباراة 1	23 مايو	فوز AlphaGo	فوز بـ 1/4 نقطة (أصغر فارق)
المباراة 2	25 مايو	فوز AlphaGo	فوز في منتصف اللعبة
المباراة 3	27 مايو	فوز AlphaGo	فوز في منتصف اللعبة

النتيجة النهائية: AlphaGo 3:0 Ke Jie

دموع Ke Jie

في منتصف المباراة الثانية، غادر Ke Jie مقعده لفترة، وعاد بعيون حمراء. بعد المباراة قال:

"إنه كامل جدًا، لا أرى أي أمل في الفوز."

"في اللعب ضد AlphaGo، أشعر بحبه لـ Go."

بعد هذه المباراة، أعلنت DeepMind اعتزال AlphaGo، ولن يشارك في مباريات علنية بعد الآن.

أكتوبر 2017: ورقة AlphaZero

تجاوز من الصفر

في أكتوبر 2017، نشرت DeepMind ورقة AlphaZero، عارضة إنجازًا أكثر إذهالًا.

اختراق AlphaZero كان: لا يحتاج سجلات مباريات بشرية على الإطلاق.

البرنامج أُخبر فقط بقواعد Go، ثم تعلم من خلال اللعب ضد نفسه. من "الصفر"، احتاج AlphaZero 40 يومًا فقط من التدريب الذاتي ليتجاوز جميع نسخ AlphaGo السابقة.

ذكاء موحد

الأكثر إذهالًا، نفس برنامج AlphaZero (بتغيير قواعد اللعبة فقط) وصل في Go والشطرنج والشوجي الياباني إلى مستوى يتجاوز جميع البشر وأقوى البرامج السابقة.

هذا أثبت عمومية التعلم المعزز العميق - نفس الخوارزمية يمكنها إتقان ألعاب ذكاء مختلفة تمامًا.

التحليل التقني

الشبكات العصبية العميقة

الشبكة العصبية التي يستخدمها AlphaGo لها جزءان رئيسيان:

شبكة السياسة (Policy Network)

المدخل: وضع اللوح الحالي
المخرج: احتمال اللعب في كل موقع
الوظيفة: محاكاة "الحدس" البشري، تضييق نطاق البحث بسرعة

شبكة القيمة (Value Network)

المدخل: وضع اللوح الحالي
المخرج: تقدير نسبة الفوز في الوضع الحالي
الوظيفة: تقييم جودة الوضع، تحل محل البحث الشامل التقليدي

البحث الشجري بـ Monte Carlo (MCTS)

MCTS هي خوارزمية بحث تعمل بالخطوات التالية:

الاختيار (Selection): بدءًا من العقدة الجذر، اختيار العقد الفرعية حسب استراتيجية معينة
التوسع (Expansion): إضافة عقد فرعية جديدة عند عقد الأوراق
المحاكاة (Simulation): من العقدة الجديدة، إجراء محاكاة عشوائية حتى نهاية اللعبة
الانتشار العكسي (Backpropagation): نقل نتيجة المحاكاة للأعلى، تحديث إحصائيات جميع العقد في المسار

ابتكار AlphaGo كان استبدال المحاكاة العشوائية بالشبكة العصبية، مما رفع كفاءة البحث بشكل كبير.

التعلم المعزز

من AlphaGo Lee إلى AlphaZero، لعب التعلم المعزز دورًا متزايد الأهمية:

AlphaGo Fan (هزم Fan Hui): اعتمد أساسًا على سجلات مباريات بشرية للتدريب
AlphaGo Lee (هزم Lee Sedol): سجلات بشرية + لعب ذاتي
AlphaGo Master (60 فوز متتالي): تدريب لعب ذاتي معزز
AlphaZero: لعب ذاتي كامل، بدون سجلات بشرية

هذا التطور يُظهر أن الذكاء الاصطناعي يمكنه في النهاية الوصول لمستوى فوق بشري بالاعتماد كليًا على التعلم الذاتي.

انتهى عصر AlphaGo في 2017، لكن التقنيات والمفاهيم التي أسسها استمرت في التأثير على Go والذكاء الاصطناعي. عصر KataGo التالي أوصل هذه التقنيات إلى كمبيوتر وهاتف كل محب لـ Go.

التالي: عصر KataGo

أكتوبر 2015: AlphaGo يهزم Fan Hui​

المباراة السرية التاريخية​

تقنية AlphaGo الأصلي​

مارس 2016: AlphaGo ضد Lee Sedol​

مواجهة القرن​

نتائج المباراة​

الحركة 37 في المباراة 2: "حركة الإله"​

الحركة 78 في المباراة 4: انتقام البشر​

تأثير المباراة​

يناير 2017: Master يحقق 60 فوز متتالي​

اللاعب الغامض على الإنترنت​

المفاهيم الجديدة التي أظهرها Master​

مايو 2017: AlphaGo ضد Ke Jie​

التحدي البشري الأخير​

نتائج المباراة​

دموع Ke Jie​

أكتوبر 2017: ورقة AlphaZero​

تجاوز من الصفر​

ذكاء موحد​

التحليل التقني​

الشبكات العصبية العميقة​

البحث الشجري بـ Monte Carlo (MCTS)​

التعلم المعزز​

أكتوبر 2015: AlphaGo يهزم Fan Hui

المباراة السرية التاريخية

تقنية AlphaGo الأصلي

مارس 2016: AlphaGo ضد Lee Sedol

مواجهة القرن

نتائج المباراة

الحركة 37 في المباراة 2: "حركة الإله"

الحركة 78 في المباراة 4: انتقام البشر

تأثير المباراة

يناير 2017: Master يحقق 60 فوز متتالي

اللاعب الغامض على الإنترنت

المفاهيم الجديدة التي أظهرها Master

مايو 2017: AlphaGo ضد Ke Jie

التحدي البشري الأخير

نتائج المباراة

دموع Ke Jie

أكتوبر 2017: ورقة AlphaZero

تجاوز من الصفر

ذكاء موحد

التحليل التقني

الشبكات العصبية العميقة

البحث الشجري بـ Monte Carlo (MCTS)

التعلم المعزز