मुख्य कंटेंट तक स्किप करें

AlphaGo युग (2015-2017)

2015 से 2017 तक, Google DeepMind के AlphaGo श्रृंखला प्रोग्रामों ने कृत्रिम बुद्धिमत्ता इतिहास की सबसे प्रतीकात्मक सफलताओं में से एक हासिल की। सिर्फ दो वर्षों में, गो "AI के लिए अजेय खेल" से "AI द्वारा मनुष्यों को पूर्णतः पार करने का क्षेत्र" बन गया।

2015 अक्टूबर: AlphaGo ने फान हुई को हराया

ऐतिहासिक गुप्त मैच

अक्टूबर 2015 में, लंदन के एक कार्यालय में, DeepMind ने एक गुप्त मैच आयोजित किया। प्रतिद्वंद्वी थे यूरोपीय गो चैंपियन, पेशेवर 2-डान फान हुई

परिणाम: AlphaGo ने 5:0 से पूर्ण जीत हासिल की।

इतिहास में पहली बार किसी कंप्यूटर प्रोग्राम ने समान शर्तों पर (बिना हैंडीकैप के) पेशेवर गो खिलाड़ी को हराया। जनवरी 2016 में यह खबर आधिकारिक रूप से जारी हुई, विश्व में हलचल मच गई।

प्रथम पीढ़ी AlphaGo की तकनीक

इस संस्करण ने दो प्रमुख तकनीकों का संयोजन किया:

  1. गहन तंत्रिका नेटवर्क: लाखों मानव पेशेवर खेलों से सीखकर, स्थिति मूल्यांकन के लिए "वैल्यू नेटवर्क" और अगली चाल भविष्यवाणी के लिए "पॉलिसी नेटवर्क" प्रशिक्षित

  2. मोंटे कार्लो ट्री सर्च (MCTS): तंत्रिका नेटवर्क आउटपुट से खोज को निर्देशित करना, गणना की भिन्नताएं काफी कम

"अंतर्ज्ञान" और "गणना" का यह संयोजन वही है जैसे मानव खिलाड़ी सोचते हैं - बस AI दोनों में बेहतर था।

2016 मार्च: AlphaGo बनाम ली सेडोल

शताब्दी का मुकाबला

9-15 मार्च 2016, AlphaGo और विश्व शीर्ष खिलाड़ी ली सेडोल के बीच सियोल में पांच-गेम मैच हुआ। इस मैच को विश्वभर में 20 करोड़ से अधिक लोगों ने देखा, AI इतिहास की सबसे चर्चित घटना बनी।

मैच परिणाम

गेमतारीखपरिणामनोट
गेम 19 मार्चAlphaGo जीताबीच में हार मानी
गेम 210 मार्चAlphaGo जीताप्रसिद्ध "चाल 37"
गेम 312 मार्चAlphaGo जीताबीच में हार मानी
गेम 413 मार्चली सेडोल जीतेली सेडोल की "दैवीय चाल 78"
गेम 515 मार्चAlphaGo जीताबीच में हार मानी

अंतिम स्कोर: AlphaGo 4:1 ली सेडोल

गेम 2 चाल 37: "दैवीय चाल"

दूसरे गेम में, AlphaGo ने दाईं ओर एक "शोल्डर हिट" खेला जिसने सभी दर्शक खिलाड़ियों को चौंका दिया।

यह चाल पूरी तरह समझ से परे थी, किसी ज्ञात जोसेकी से मेल नहीं खाती। विश्लेषकों ने अनुमान लगाया कि मनुष्य द्वारा ऐसी चाल खेलने की संभावना दस हजार में एक से भी कम। लेकिन जैसे-जैसे खेल आगे बढ़ा, इस चाल की गहराई स्पष्ट हुई - एक साथ कई दिशाओं पर प्रभाव, अत्यधिक कुशल।

इस चाल को "दैवीय चाल" कहा गया, जो दर्शाती है कि AI ने मानव समझ से परे गो अवधारणाएं विकसित कर लीं।

गेम 4 चाल 78: मानव का जवाब

लगातार तीन हार के बाद, ली सेडोल ने चौथे गेम में समान रूप से चौंकाने वाली चाल खेली - 78वीं चाल "वेज"।

यह चतुर तेसुजी थी, जटिल लड़ाई में ऐसी भिन्नता पैदा की जो AlphaGo ने नहीं देखी। इस चाल के बाद AlphaGo स्पष्ट रूप से भटक गया, अंततः हार मानी।

यह आधिकारिक मैच में मनुष्य की AlphaGo पर एकमात्र जीत है, ली सेडोल की यह चाल मानव बुद्धिमत्ता का प्रतीक बनकर अमर है।

मैच का प्रभाव

इस मैच का प्रभाव गो जगत से कहीं आगे गया:

  • AI का मील का पत्थर: साबित हुआ कि गहन शिक्षण अत्यंत जटिल समस्याएं हल कर सकता है
  • कोरिया में राष्ट्रव्यापी ध्यान: अनुमान है कि आधी से अधिक कोरियाई आबादी ने देखा
  • गो का नया युग: पेशेवर खिलाड़ियों को एहसास हुआ कि AI से सीखना होगा
  • तकनीक निवेश की लहर: वैश्विक स्तर पर AI अनुसंधान में निवेश बढ़ा

2017 जनवरी: Master की 60 जीत

रहस्यमय ऑनलाइन खिलाड़ी

2016 के अंत से 2017 की शुरुआत तक, "Master" नाम का अकाउंट यीचेंग और वाइल्ड फॉक्स जैसी गो साइटों पर दिखा। इसने अत्यंत तेज गति से सभी चुनौतीदाताओं को हराया, के जी, पार्क जुंगह्वान, इयामा युता जैसे विश्व शीर्ष खिलाड़ी शामिल।

अंतिम रिकॉर्ड: 60 खेल 60 जीत (एक गेम प्रतिद्वंद्वी के डिस्कनेक्ट होने से ड्रॉ)

60वें गेम के बाद, DeepMind ने आधिकारिक घोषणा की: Master AlphaGo का नया संस्करण है।

Master की नई अवधारणाएं

Master की शैली एक साल पहले ली सेडोल को हराने वाले संस्करण से स्पष्ट रूप से अलग थी:

  • तेज गणना गति: हर चाल में कुछ सेकंड
  • अधिक आक्रामक चालें: अक्सर पारंपरिक रूप से "गलत" मानी जाने वाली चालें
  • 3-3 मुख्यधारा बना: Master अक्सर ओपनिंग में सीधे 3-3 खेलता

इन चालों ने मनुष्यों के सैकड़ों वर्षों के गो सिद्धांत को उलट दिया, पेशेवर खिलाड़ी AI की नकल करने लगे।

2017 मई: AlphaGo बनाम के जी

मानव की अंतिम चुनौती

मई 2017 में, चीन के वूझेन में, AlphaGo और तत्कालीन विश्व नंबर 1 के जी के बीच तीन-गेम मैच हुआ। इसे "मानव की अंतिम चुनौती" माना गया।

मैच परिणाम

गेमतारीखपरिणामनोट
गेम 123 मईAlphaGo जीता1/4 पत्थर से (न्यूनतम अंतर)
गेम 225 मईAlphaGo जीताबीच में हार मानी
गेम 327 मईAlphaGo जीताबीच में हार मानी

अंतिम स्कोर: AlphaGo 3:0 के जी

के जी के आंसू

दूसरे गेम के बीच में, के जी एक बार सीट छोड़कर गए, लौटे तो आंखें लाल थीं। बाद में उन्होंने कहा:

"यह बहुत संपूर्ण है, मुझे जीत की कोई आशा नहीं दिखती।"

"AlphaGo के साथ खेलते हुए, मुझे इसका गो के प्रति प्रेम महसूस हुआ।"

इस मैच के बाद, DeepMind ने AlphaGo की सेवानिवृत्ति और सार्वजनिक मैचों में भाग न लेने की घोषणा की।

2017 अक्टूबर: AlphaZero पेपर

शून्य से पार करना

अक्टूबर 2017 में, DeepMind ने AlphaZero पेपर प्रकाशित किया, और भी चौंकाने वाली उपलब्धि दिखाई।

AlphaZero की सफलता: इसे मानव गेम रिकॉर्ड की जरूरत नहीं।

प्रोग्राम को सिर्फ गो के नियम बताए गए, फिर स्व-खेल से सीखा। "शून्य" से शुरू करके, AlphaZero ने केवल 40 दिनों के स्व-प्रशिक्षण में पिछले सभी AlphaGo संस्करणों को पार कर लिया।

एकीकृत बुद्धिमत्ता

और भी आश्चर्यजनक, वही AlphaZero प्रोग्राम (केवल खेल नियम बदलकर) गो, शतरंज, शोगी तीनों खेलों में सभी मनुष्यों और पिछले सबसे मजबूत प्रोग्रामों को पार कर गया।

इसने गहन प्रबलन शिक्षण की सार्वभौमिकता साबित की - एक ही एल्गोरिथम पूर्णतः भिन्न बौद्धिक खेलों में महारत हासिल कर सकता है।

तकनीकी विश्लेषण

गहन तंत्रिका नेटवर्क

AlphaGo का तंत्रिका नेटवर्क दो मुख्य भागों में:

पॉलिसी नेटवर्क

  • इनपुट: वर्तमान बोर्ड स्थिति
  • आउटपुट: हर स्थिति की चाल संभावना
  • कार्य: मानव "अंतर्ज्ञान" का अनुकरण, खोज दायरा संकीर्ण करना

वैल्यू नेटवर्क

  • इनपुट: वर्तमान बोर्ड स्थिति
  • आउटपुट: वर्तमान स्थिति की जीत दर अनुमान
  • कार्य: स्थिति मूल्यांकन, पारंपरिक संपूर्ण खोज की जगह

मोंटे कार्लो ट्री सर्च (MCTS)

MCTS एक खोज एल्गोरिथम है, निम्न चरणों से काम करता है:

  1. चयन: रूट नोड से, किसी रणनीति के अनुसार चाइल्ड नोड चुनें
  2. विस्तार: लीफ नोड पर नए चाइल्ड नोड जोड़ें
  3. सिमुलेशन: नए नोड से खेल समाप्ति तक यादृच्छिक सिमुलेशन
  4. बैकप्रोपेगेशन: सिमुलेशन परिणाम ऊपर भेजें, पथ के सभी नोड्स अपडेट करें

AlphaGo का नवाचार तंत्रिका नेटवर्क से यादृच्छिक सिमुलेशन की जगह लेना था, खोज कुशलता काफी बढ़ी।

प्रबलन शिक्षण

AlphaGo Lee से AlphaZero तक, प्रबलन शिक्षण की भूमिका बढ़ती गई:

  • AlphaGo Fan (फान हुई को हराया): मुख्यतः मानव गेम रिकॉर्ड पर प्रशिक्षित
  • AlphaGo Lee (ली सेडोल को हराया): मानव रिकॉर्ड + स्व-खेल
  • AlphaGo Master (60 जीत): बढ़ा हुआ स्व-खेल प्रशिक्षण
  • AlphaZero: पूर्ण स्व-खेल, मानव रिकॉर्ड नहीं

यह विकास दर्शाता है कि AI अंततः पूर्णतः स्व-शिक्षण से अति-मानवीय स्तर पा सकता है।


AlphaGo का युग 2017 में समाप्त हुआ, लेकिन इसकी तकनीक और अवधारणाएं गो और AI क्षेत्र को प्रभावित करती रहीं। आगे का KataGo युग इन तकनीकों को हर गो प्रेमी के कंप्यूटर और फोन तक ले आया।

अगला: KataGo युग