AlphaGo युग (2015-2017)
2015 से 2017 तक, Google DeepMind के AlphaGo श्रृंखला प्रोग्रामों ने कृत्रिम बुद्धिमत्ता इतिहास की सबसे प्रतीकात्मक सफलताओं में से एक हासिल की। सिर्फ दो वर्षों में, गो "AI के लिए अजेय खेल" से "AI द्वारा मनुष्यों को पूर्णतः पार करने का क्षेत्र" बन गया।
2015 अक्टूबर: AlphaGo ने फान हुई को हराया
ऐतिहासिक गुप्त मैच
अक्टूबर 2015 में, लंदन के एक कार्यालय में, DeepMind ने एक गुप्त मैच आयोजित किया। प्रतिद्वंद्वी थे यूरोपीय गो चैंपियन, पेशेवर 2-डान फान हुई।
परिणाम: AlphaGo ने 5:0 से पूर्ण जीत हासिल की।
इतिहास में पहली बार किसी कंप्यूटर प्रोग्राम ने समान शर्तों पर (बिना हैंडीकैप के) पेशेवर गो खिलाड़ी को हराया। जनवरी 2016 में यह खबर आधिकारिक रूप से जारी हुई, विश्व में हलचल मच गई।
प्रथम पीढ़ी AlphaGo की तकनीक
इस संस्करण ने दो प्रमुख तकनीकों का संयोजन किया:
-
गहन तंत्रिका नेटवर्क: लाखों मानव पेशेवर खेलों से सीखकर, स्थिति मूल्यांकन के लिए "वैल्यू नेटवर्क" और अगली चाल भविष्यवाणी के लिए "पॉलिसी नेटवर्क" प्रशिक्षित
-
मोंटे कार्लो ट्री सर्च (MCTS): तंत्रिका नेटवर्क आउटपुट से खोज को निर्देशित करना, गणना की भिन्नताएं काफी कम
"अंतर्ज्ञान" और "गणना" का यह संयोजन वही है जैसे मानव खिलाड़ी सोचते हैं - बस AI दोनों में बेहतर था।
2016 मार्च: AlphaGo बनाम ली सेडोल
शताब्दी का मुकाबला
9-15 मार्च 2016, AlphaGo और विश्व शीर्ष खिलाड़ी ली सेडोल के बीच सियोल में पांच-गेम मैच हुआ। इस मैच को विश्वभर में 20 करोड़ से अधिक लोगों ने देखा, AI इतिहास की सबसे चर्चित घटना बनी।
मैच परिणाम
| गेम | तारीख | परिणाम | नोट |
|---|---|---|---|
| गेम 1 | 9 मार्च | AlphaGo जीता | बीच में हार मानी |
| गेम 2 | 10 मार्च | AlphaGo जीता | प्रसिद्ध "चाल 37" |
| गेम 3 | 12 मार्च | AlphaGo जीता | बीच में हार मानी |
| गेम 4 | 13 मार्च | ली सेडोल जीते | ली सेडोल की "दैवीय चाल 78" |
| गेम 5 | 15 मार्च | AlphaGo जीता | बीच में हार मानी |
अंतिम स्कोर: AlphaGo 4:1 ली सेडोल
गेम 2 चाल 37: "दैवीय चाल"
दूसरे गेम में, AlphaGo ने दाईं ओर एक "शोल्डर हिट" खेला जिसने सभी दर्शक खिलाड़ियों को चौंका दिया।
यह चाल पूरी तरह समझ से परे थी, किसी ज्ञात जोसेकी से मेल नहीं खाती। विश्लेषकों ने अनुमान लगाया कि मनुष्य द्वारा ऐसी चाल खेलने की संभावना दस हजार में एक से भी कम। लेकिन जैसे-जैसे खेल आगे बढ़ा, इस चाल की गहराई स्पष्ट हुई - एक साथ कई दिशाओं पर प्रभाव, अत्यधिक कुशल।
इस चाल को "दैवीय चाल" कहा गया, जो दर्शाती है कि AI ने मानव समझ से परे गो अवधारणाएं विकसित कर लीं।
गेम 4 चाल 78: मानव का जवाब
लगातार तीन हार के बाद, ली सेडोल ने चौथे गेम में समान रूप से चौंकाने वाली चाल खेली - 78वीं चाल "वेज"।
यह चतुर तेसुजी थी, जटिल लड़ाई में ऐसी भिन्नता पैदा की जो AlphaGo ने नहीं देखी। इस चाल के बाद AlphaGo स्पष्ट रूप से भटक गया, अंततः हार मानी।
यह आधिकारिक मैच में मनुष्य की AlphaGo पर एकमात्र जीत है, ली सेडोल की यह चाल मानव बुद्धिमत्ता का प्रतीक बनकर अमर है।
मैच का प्रभाव
इस मैच का प्रभाव गो जगत से कहीं आगे गया:
- AI का मील का पत्थर: साबित हुआ कि गहन शिक्षण अत्यंत जटिल समस्याएं हल कर सकता है
- कोरिया में राष्ट्रव्यापी ध्यान: अनुमान है कि आधी से अधिक कोरियाई आबादी ने देखा
- गो का नया युग: पेशेवर खिलाड़ियों को एहसास हुआ कि AI से सीखना होगा
- तकनीक निवेश की लहर: वैश्विक स्तर पर AI अनुसंधान में निवेश बढ़ा
2017 जनवरी: Master की 60 जीत
रहस्यमय ऑनलाइन खिलाड़ी
2016 के अंत से 2017 की शुरुआत तक, "Master" नाम का अकाउंट यीचेंग और वाइल्ड फॉक्स जैसी गो साइटों पर दिखा। इसने अत्यंत तेज गति से सभी चुनौतीदाताओं को हराया, के जी, पार्क जुंगह्वान, इयामा युता जैसे विश्व शीर्ष खिलाड़ी शामिल।
अंतिम रिकॉर्ड: 60 खेल 60 जीत (एक गेम प्रतिद्वंद्वी के डिस्कनेक्ट होने से ड्रॉ)
60वें गेम के बाद, DeepMind ने आधिकारिक घोषणा की: Master AlphaGo का नया संस्करण है।
Master की नई अवधारणाएं
Master की शैली एक साल पहले ली सेडोल को हराने वाले संस्करण से स्पष्ट रूप से अलग थी:
- तेज गणना गति: हर चाल में कुछ सेकंड
- अधिक आक्रामक चालें: अक्सर पारंपरिक रूप से "गलत" मानी जाने वाली चालें
- 3-3 मुख्यधारा बना: Master अक्सर ओपनिंग में सीधे 3-3 खेलता
इन चालों ने मनुष्यों के सैकड़ों वर्षों के गो सिद्धांत को उलट दिया, पेशेवर खिलाड़ी AI की नकल करने लगे।
2017 मई: AlphaGo बनाम के जी
मानव की अंतिम चुनौती
मई 2017 में, चीन के वूझेन में, AlphaGo और तत्कालीन विश्व नंबर 1 के जी के बीच तीन-गेम मैच हुआ। इसे "मानव की अंतिम चुनौती" माना गया।
मैच परिणाम
| गेम | तारीख | परिणाम | नोट |
|---|---|---|---|
| गेम 1 | 23 मई | AlphaGo जीता | 1/4 पत्थर से (न्यूनतम अंतर) |
| गेम 2 | 25 मई | AlphaGo जीता | बीच में हार मानी |
| गेम 3 | 27 मई | AlphaGo जीता | बीच में हार मानी |
अंतिम स्कोर: AlphaGo 3:0 के जी
के जी के आंसू
दूसरे गेम के बीच में, के जी एक बार सीट छोड़कर गए, लौटे तो आंखें लाल थीं। बाद में उन्होंने कहा:
"यह बहुत संपूर्ण है, मुझे जीत की कोई आशा नहीं दिखती।"
"AlphaGo के साथ खेलते हुए, मुझे इसका गो के प्रति प्रेम महसूस हुआ।"
इस मैच के बाद, DeepMind ने AlphaGo की सेवानिवृत्ति और सार्वजनिक मैचों में भाग न लेने की घोषणा की।
2017 अक्टूबर: AlphaZero पेपर
शून्य से पार करना
अक्टूबर 2017 में, DeepMind ने AlphaZero पेपर प्रकाशित किया, और भी चौंकाने वाली उपलब्धि दिखाई।
AlphaZero की सफलता: इसे मानव गेम रिकॉर्ड की जरूरत नहीं।
प्रोग्राम को सिर्फ गो के नियम बताए गए, फिर स्व-खेल से सीखा। "शून्य" से शुरू करके, AlphaZero ने केवल 40 दिनों के स्व-प्रशिक्षण में पिछले सभी AlphaGo संस्करणों को पार कर लिया।
एकीकृत बुद्धिमत्ता
और भी आश्चर्यजनक, वही AlphaZero प्रोग्राम (केवल खेल नियम बदलकर) गो, शतरंज, शोगी तीनों खेलों में सभी मनुष्यों और पिछले सबसे मजबूत प्रोग्रामों को पार कर गया।
इसने गहन प्रबलन शिक्षण की सार्वभौमिकता साबित की - एक ही एल्गोरिथम पूर्णतः भिन्न बौद्धिक खेलों में महारत हासिल कर सकता है।
तकनीकी विश्लेषण
गहन तंत्रिका नेटवर्क
AlphaGo का तंत्रिका नेटवर्क दो मुख्य भागों में:
पॉलिसी नेटवर्क
- इनपुट: वर्तमान बोर्ड स्थिति
- आउटपुट: हर स्थिति की चाल संभावना
- कार्य: मानव "अंतर्ज्ञान" का अनुकरण, खोज दायरा संकीर्ण करना
वैल्यू नेटवर्क
- इनपुट: वर्तमान बोर्ड स्थिति
- आउटपुट: वर्तमान स्थिति की जीत दर अनुमान
- कार्य: स्थिति मूल्यांकन, पारंपरिक संपूर्ण खोज की जगह
मोंटे कार्लो ट्री सर्च (MCTS)
MCTS एक खोज एल्गोरिथम है, निम्न चरणों से काम करता है:
- चयन: रूट नोड से, किसी रणनीति के अनुसार चाइल्ड नोड चुनें
- विस्तार: लीफ नोड पर नए चाइल्ड नोड जोड़ें
- सिमुलेशन: नए नोड से खेल समाप्ति तक यादृच्छिक सिमुलेशन
- बैकप्रोपेगेशन: सिमुलेशन परिणाम ऊपर भेजें, पथ के सभी नोड्स अपडेट करें
AlphaGo का नवाचार तंत्रिका नेटवर्क से यादृच्छिक सिमुलेशन की जगह लेना था, खोज कुशलता काफी बढ़ी।
प्रबलन शिक्षण
AlphaGo Lee से AlphaZero तक, प्रबलन शिक्षण की भूमिका बढ़ती गई:
- AlphaGo Fan (फान हुई को हराया): मुख्यतः मानव गेम रिकॉर्ड पर प्रशिक्षित
- AlphaGo Lee (ली सेडोल को हराया): मानव रिकॉर्ड + स्व-खेल
- AlphaGo Master (60 जीत): बढ़ा हुआ स्व-खेल प्रशिक्षण
- AlphaZero: पूर्ण स्व-खेल, मानव रिकॉर्ड नहीं
यह विकास दर्शाता है कि AI अंततः पूर्णतः स्व-शिक्षण से अति-मानवीय स्तर पा सकता है।
AlphaGo का युग 2017 में समाप्त हुआ, लेकिन इसकी तकनीक और अवधारणाएं गो और AI क्षेत्र को प्रभावित करती रहीं। आगे का KataGo युग इन तकनीकों को हर गो प्रेमी के कंप्यूटर और फोन तक ले आया।
अगला: KataGo युग