AlphaGo युग (2015-2017)

2015 से 2017 तक, Google DeepMind के AlphaGo श्रृंखला प्रोग्रामों ने कृत्रिम बुद्धिमत्ता इतिहास की सबसे प्रतीकात्मक सफलताओं में से एक हासिल की। सिर्फ दो वर्षों में, गो "AI के लिए अजेय खेल" से "AI द्वारा मनुष्यों को पूर्णतः पार करने का क्षेत्र" बन गया।

2015 से 2017 के बीच, DeepMind का AlphaGo पहले 2015 में पेशेवर खिलाड़ी फान हुई को हराया, 2016 में ली सेडोल को 4:1 से हराया, फिर Master नाम से ऑनलाइन लगातार जीतते हुए 2017 में के जी को हराया। गहन तंत्रिका नेटवर्क और मोंटे कार्लो ट्री सर्च के संयोजन से AI ने मानव गो स्तर को पूरी तरह पार कर लिया।

2015 अक्टूबर: AlphaGo ने फान हुई को हराया

ऐतिहासिक गुप्त मैच

अक्टूबर 2015 में, लंदन के एक कार्यालय में, DeepMind ने एक गुप्त मैच आयोजित किया। प्रतिद्वंद्वी थे यूरोपीय गो चैंपियन, पेशेवर 2-डान फान हुई।

परिणाम: AlphaGo ने 5:0 से पूर्ण जीत हासिल की।

इतिहास में पहली बार किसी कंप्यूटर प्रोग्राम ने समान शर्तों पर (बिना हैंडीकैप के) पेशेवर गो खिलाड़ी को हराया। जनवरी 2016 में यह खबर आधिकारिक रूप से जारी हुई, विश्व में हलचल मच गई।

प्रथम पीढ़ी AlphaGo की तकनीक

इस संस्करण ने दो प्रमुख तकनीकों का संयोजन किया:

गहन तंत्रिका नेटवर्क: लाखों मानव पेशेवर खेलों से सीखकर, स्थिति मूल्यांकन के लिए "वैल्यू नेटवर्क" और अगली चाल भविष्यवाणी के लिए "पॉलिसी नेटवर्क" प्रशिक्षित
मोंटे कार्लो ट्री सर्च (MCTS): तंत्रिका नेटवर्क आउटपुट से खोज को निर्देशित करना, गणना की भिन्नताएं काफी कम

"अंतर्ज्ञान" और "गणना" का यह संयोजन वही है जैसे मानव खिलाड़ी सोचते हैं - बस AI दोनों में बेहतर था।

2016 मार्च: AlphaGo बनाम ली सेडोल

शताब्दी का मुकाबला

9-15 मार्च 2016, AlphaGo और विश्व शीर्ष खिलाड़ी ली सेडोल के बीच सियोल में पांच-गेम मैच हुआ। इस मैच को विश्वभर में 20 करोड़ से अधिक लोगों ने देखा, AI इतिहास की सबसे चर्चित घटना बनी।

मैच परिणाम

गेम	तारीख	परिणाम	नोट
गेम 1	9 मार्च	AlphaGo जीता	बीच में हार मानी
गेम 2	10 मार्च	AlphaGo जीता	प्रसिद्ध "चाल 37"
गेम 3	12 मार्च	AlphaGo जीता	बीच में हार मानी
गेम 4	13 मार्च	ली सेडोल जीते	ली सेडोल की "दैवीय चाल 78"
गेम 5	15 मार्च	AlphaGo जीता	बीच में हार मानी

अंतिम स्कोर: AlphaGo 4:1 ली सेडोल

गेम 2 चाल 37: "दैवीय चाल"

दूसरे गेम में, AlphaGo ने दाईं ओर एक "शोल्डर हिट" खेला जिसने सभी दर्शक खिलाड़ियों को चौंका दिया।

यह चाल पूरी तरह समझ से परे थी, किसी ज्ञात जोसेकी से मेल नहीं खाती। विश्लेषकों ने अनुमान लगाया कि मनुष्य द्वारा ऐसी चाल खेलने की संभावना दस हजार में एक से भी कम। लेकिन जैसे-जैसे खेल आगे बढ़ा, इस चाल की गहराई स्पष्ट हुई - एक साथ कई दिशाओं पर प्रभाव, अत्यधिक कुशल।

इस चाल को "दैवीय चाल" कहा गया, जो दर्शाती है कि AI ने मानव समझ से परे गो अवधारणाएं विकसित कर लीं।

गेम 4 चाल 78: मानव का जवाब

लगातार तीन हार के बाद, ली सेडोल ने चौथे गेम में समान रूप से चौंकाने वाली चाल खेली - 78वीं चाल "वेज"।

यह चतुर तेसुजी थी, जटिल लड़ाई में ऐसी भिन्नता पैदा की जो AlphaGo ने नहीं देखी। इस चाल के बाद AlphaGo स्पष्ट रूप से भटक गया, अंततः हार मानी।

यह आधिकारिक मैच में मनुष्य की AlphaGo पर एकमात्र जीत है, ली सेडोल की यह चाल मानव बुद्धिमत्ता का प्रतीक बनकर अमर है।

मैच का प्रभाव

इस मैच का प्रभाव गो जगत से कहीं आगे गया:

AI का मील का पत्थर: साबित हुआ कि गहन शिक्षण अत्यंत जटिल समस्याएं हल कर सकता है
कोरिया में राष्ट्रव्यापी ध्यान: अनुमान है कि आधी से अधिक कोरियाई आबादी ने देखा
गो का नया युग: पेशेवर खिलाड़ियों को एहसास हुआ कि AI से सीखना होगा
तकनीक निवेश की लहर: वैश्विक स्तर पर AI अनुसंधान में निवेश बढ़ा

2017 जनवरी: Master की 60 जीत

रहस्यमय ऑनलाइन खिलाड़ी

2016 के अंत से 2017 की शुरुआत तक, "Master" नाम का अकाउंट यीचेंग और वाइल्ड फॉक्स जैसी गो साइटों पर दिखा। इसने अत्यंत तेज गति से सभी चुनौतीदाताओं को हराया, के जी, पार्क जुंगह्वान, इयामा युता जैसे विश्व शीर्ष खिलाड़ी शामिल।

अंतिम रिकॉर्ड: 60 खेल 60 जीत (एक गेम प्रतिद्वंद्वी के डिस्कनेक्ट होने से ड्रॉ)

60वें गेम के बाद, DeepMind ने आधिकारिक घोषणा की: Master AlphaGo का नया संस्करण है।

Master की नई अवधारणाएं

Master की शैली एक साल पहले ली सेडोल को हराने वाले संस्करण से स्पष्ट रूप से अलग थी:

तेज गणना गति: हर चाल में कुछ सेकंड
अधिक आक्रामक चालें: अक्सर पारंपरिक रूप से "गलत" मानी जाने वाली चालें
3-3 मुख्यधारा बना: Master अक्सर ओपनिंग में सीधे 3-3 खेलता

इन चालों ने मनुष्यों के सैकड़ों वर्षों के गो सिद्धांत को उलट दिया, पेशेवर खिलाड़ी AI की नकल करने लगे।

2017 मई: AlphaGo बनाम के जी

मानव की अंतिम चुनौती

मई 2017 में, चीन के वूझेन में, AlphaGo और तत्कालीन विश्व नंबर 1 के जी के बीच तीन-गेम मैच हुआ। इसे "मानव की अंतिम चुनौती" माना गया।

मैच परिणाम

गेम	तारीख	परिणाम	नोट
गेम 1	23 मई	AlphaGo जीता	1/4 पत्थर से (न्यूनतम अंतर)
गेम 2	25 मई	AlphaGo जीता	बीच में हार मानी
गेम 3	27 मई	AlphaGo जीता	बीच में हार मानी

अंतिम स्कोर: AlphaGo 3:0 के जी

के जी के आंसू

दूसरे गेम के बीच में, के जी एक बार सीट छोड़कर गए, लौटे तो आंखें लाल थीं। बाद में उन्होंने कहा:

"यह बहुत संपूर्ण है, मुझे जीत की कोई आशा नहीं दिखती।"

"AlphaGo के साथ खेलते हुए, मुझे इसका गो के प्रति प्रेम महसूस हुआ।"

इस मैच के बाद, DeepMind ने AlphaGo की सेवानिवृत्ति और सार्वजनिक मैचों में भाग न लेने की घोषणा की।

2017 अक्टूबर: AlphaZero पेपर

शून्य से पार करना

अक्टूबर 2017 में, DeepMind ने AlphaZero पेपर प्रकाशित किया, और भी चौंकाने वाली उपलब्धि दिखाई।

AlphaZero की सफलता: इसे मानव गेम रिकॉर्ड की जरूरत नहीं।

प्रोग्राम को सिर्फ गो के नियम बताए गए, फिर स्व-खेल से सीखा। "शून्य" से शुरू करके, AlphaZero ने केवल 40 दिनों के स्व-प्रशिक्षण में पिछले सभी AlphaGo संस्करणों को पार कर लिया।

एकीकृत बुद्धिमत्ता

और भी आश्चर्यजनक, वही AlphaZero प्रोग्राम (केवल खेल नियम बदलकर) गो, शतरंज, शोगी तीनों खेलों में सभी मनुष्यों और पिछले सबसे मजबूत प्रोग्रामों को पार कर गया।

इसने गहन प्रबलन शिक्षण की सार्वभौमिकता साबित की - एक ही एल्गोरिथम पूर्णतः भिन्न बौद्धिक खेलों में महारत हासिल कर सकता है।

तकनीकी विश्लेषण

गहन तंत्रिका नेटवर्क

AlphaGo का तंत्रिका नेटवर्क दो मुख्य भागों में:

पॉलिसी नेटवर्क

इनपुट: वर्तमान बोर्ड स्थिति
आउटपुट: हर स्थिति की चाल संभावना
कार्य: मानव "अंतर्ज्ञान" का अनुकरण, खोज दायरा संकीर्ण करना

वैल्यू नेटवर्क

इनपुट: वर्तमान बोर्ड स्थिति
आउटपुट: वर्तमान स्थिति की जीत दर अनुमान
कार्य: स्थिति मूल्यांकन, पारंपरिक संपूर्ण खोज की जगह

मोंटे कार्लो ट्री सर्च (MCTS)

MCTS एक खोज एल्गोरिथम है, निम्न चरणों से काम करता है:

चयन: रूट नोड से, किसी रणनीति के अनुसार चाइल्ड नोड चुनें
विस्तार: लीफ नोड पर नए चाइल्ड नोड जोड़ें
सिमुलेशन: नए नोड से खेल समाप्ति तक यादृच्छिक सिमुलेशन
बैकप्रोपेगेशन: सिमुलेशन परिणाम ऊपर भेजें, पथ के सभी नोड्स अपडेट करें

AlphaGo का नवाचार तंत्रिका नेटवर्क से यादृच्छिक सिमुलेशन की जगह लेना था, खोज कुशलता काफी बढ़ी।

प्रबलन शिक्षण

AlphaGo Lee से AlphaZero तक, प्रबलन शिक्षण की भूमिका बढ़ती गई:

AlphaGo Fan (फान हुई को हराया): मुख्यतः मानव गेम रिकॉर्ड पर प्रशिक्षित
AlphaGo Lee (ली सेडोल को हराया): मानव रिकॉर्ड + स्व-खेल
AlphaGo Master (60 जीत): बढ़ा हुआ स्व-खेल प्रशिक्षण
AlphaZero: पूर्ण स्व-खेल, मानव रिकॉर्ड नहीं

यह विकास दर्शाता है कि AI अंततः पूर्णतः स्व-शिक्षण से अति-मानवीय स्तर पा सकता है।

AlphaGo का युग 2017 में समाप्त हुआ, लेकिन इसकी तकनीक और अवधारणाएं गो और AI क्षेत्र को प्रभावित करती रहीं। आगे का KataGo युग इन तकनीकों को हर गो प्रेमी के कंप्यूटर और फोन तक ले आया।

अगला: KataGo युग

2015 अक्टूबर: AlphaGo ने फान हुई को हराया​

ऐतिहासिक गुप्त मैच​

प्रथम पीढ़ी AlphaGo की तकनीक​

2016 मार्च: AlphaGo बनाम ली सेडोल​

शताब्दी का मुकाबला​

मैच परिणाम​

गेम 2 चाल 37: "दैवीय चाल"​

गेम 4 चाल 78: मानव का जवाब​

मैच का प्रभाव​

2017 जनवरी: Master की 60 जीत​

रहस्यमय ऑनलाइन खिलाड़ी​

Master की नई अवधारणाएं​

2017 मई: AlphaGo बनाम के जी​

मानव की अंतिम चुनौती​

मैच परिणाम​

के जी के आंसू​

2017 अक्टूबर: AlphaZero पेपर​

शून्य से पार करना​

एकीकृत बुद्धिमत्ता​

तकनीकी विश्लेषण​

गहन तंत्रिका नेटवर्क​

मोंटे कार्लो ट्री सर्च (MCTS)​

प्रबलन शिक्षण​

2015 अक्टूबर: AlphaGo ने फान हुई को हराया

ऐतिहासिक गुप्त मैच

प्रथम पीढ़ी AlphaGo की तकनीक

2016 मार्च: AlphaGo बनाम ली सेडोल

शताब्दी का मुकाबला

मैच परिणाम

गेम 2 चाल 37: "दैवीय चाल"

गेम 4 चाल 78: मानव का जवाब

मैच का प्रभाव

2017 जनवरी: Master की 60 जीत

रहस्यमय ऑनलाइन खिलाड़ी

Master की नई अवधारणाएं

2017 मई: AlphaGo बनाम के जी

मानव की अंतिम चुनौती

मैच परिणाम

के जी के आंसू

2017 अक्टूबर: AlphaZero पेपर

शून्य से पार करना

एकीकृत बुद्धिमत्ता

तकनीकी विश्लेषण

गहन तंत्रिका नेटवर्क

मोंटे कार्लो ट्री सर्च (MCTS)

प्रबलन शिक्षण