AlphaGo का जन्म

मार्च 2016 में, जब AlphaGo ने ली सेडोल को 4:1 से हराया, तो पूरी दुनिया ने पूछा: यह प्रोग्राम जिसने कृत्रिम बुद्धिमत्ता का इतिहास बदल दिया, आखिर कैसे पैदा हुई?

जवाब एक शतरंज के बाल प्रतिभा के सपने से शुरू होता है।

DeepMind की स्थापना

डेमिस हसाबिस: बाल प्रतिभा से AI अग्रणी तक

डेमिस हसाबिस DeepMind के सह-संस्थापक और CEO हैं। उनका जीवन अनुभव लगभग AlphaGo बनाने के लिए तैयार किया गया था।

शतरंज बाल प्रतिभा

1975 में लंदन में जन्मे हसाबिस ने 4 साल की उम्र में शतरंज खेलना सीखा और 13 साल की उम्र में शतरंज मास्टर स्तर (Elo 2300+) तक पहुंच गए, जो ब्रिटिश इतिहास में इस स्तर पर पहुंचने वाले दूसरे सबसे कम उम्र के खिलाड़ी थे।

इस अनुभव ने उन्हें गहरी समझ दी:

बोर्ड गेम बुद्धिमत्ता की कसौटी हैं: शतरंज खेलने के लिए योजना, अंतर्ज्ञान और पैटर्न पहचान की आवश्यकता होती है
मानव बुद्धिमत्ता का सार: खिलाड़ी विशाल संभावनाओं में से अच्छी चालें कैसे खोजते हैं?
कंप्यूटर की सीमाएं: 1997 में डीप ब्लू की कास्परोव पर जीत ब्रूट फोर्स सर्च पर आधारित थी, वास्तविक "समझ" पर नहीं

गेम डिज़ाइनर

17 साल की उम्र में, हसाबिस Bullfrog Productions में शामिल हुए (पीटर मोलीन्यू द्वारा स्थापित गेम कंपनी, "पॉपुलस" के निर्माता), क्लासिक गेम "थीम पार्क" के विकास में भाग लिया। इस अनुभव ने उन्हें सिखाया:

जटिल प्रणालियां कैसे डिज़ाइन करें: गेम वास्तविक दुनिया का अनुकरण करने वाले सरलीकृत मॉडल हैं
खिलाड़ी व्यवहार पूर्वानुमान: AI को मानव निर्णय लेने की प्रक्रिया को समझने की जरूरत है

संज्ञानात्मक न्यूरोसाइंटिस्ट

कैम्ब्रिज विश्वविद्यालय से कंप्यूटर विज्ञान में डिग्री प्राप्त करने के बाद, हसाबिस ने यूनिवर्सिटी कॉलेज लंदन (UCL) से संज्ञानात्मक न्यूरोसाइंस में पीएचडी प्राप्त की। उनका शोध विषय था: हिप्पोकैम्पस मनुष्यों को कल्पना और योजना कैसे करने देता है।

इस शोध ने पाया:

मानव स्मृति और कल्पना समान मस्तिष्क क्षेत्र का उपयोग करती हैं
हम "मानसिक समय यात्रा" के माध्यम से भविष्य की योजना बनाते हैं
यह क्षमता बुद्धिमत्ता का मूल हो सकती है

इन अंतर्दृष्टियों ने सीधे बाद में AlphaGo के डिज़ाइन को प्रभावित किया — AI को भविष्य की चालों की "कल्पना" करने और उनसे सीखने में सक्षम बनाना।

सह-संस्थापक

2010 में, हसाबिस ने दो साथियों के साथ DeepMind की सह-स्थापना की:

संस्थापक	पृष्ठभूमि	योगदान
डेमिस हसाबिस	न्यूरोसाइंस, गेम डिज़ाइन	विज़न और रणनीति
शेन लेग	मशीन लर्निंग पीएचडी	AGI सैद्धांतिक आधार
मुस्तफा सुलेमान	सामाजिक उद्यमी	व्यवसाय और अनुप्रयोग

"बुद्धिमत्ता को हल करो, फिर इसे सब कुछ हल करने के लिए उपयोग करो"

DeepMind का मिशन स्टेटमेंट है:

"Solve intelligence, and then use that to solve everything else."

"बुद्धिमत्ता को हल करो, और फिर इसका उपयोग बाकी सब कुछ हल करने के लिए करो।"

यह एक साधारण AI कंपनी नहीं है। उनका लक्ष्य उत्पाद बनाना नहीं है, बल्कि आर्टिफिशियल जनरल इंटेलिजेंस (AGI) बनाना है — एक AI जो मनुष्यों की तरह सोच सके, सीख सके और किसी भी समस्या को हल कर सके।

"बुद्धिमत्ता को हल करने" को पहले क्यों? क्योंकि एक बार हमारे पास AGI होगी, यह जलवायु परिवर्तन, बीमारियों, ऊर्जा जैसी मानवता की सबसे बड़ी चुनौतियों को हल करने में हमारी मदद कर सकती है।

प्रारंभिक सफलता: Atari गेम्स

गो को चुनौती देने से पहले, DeepMind ने पहले अपनी क्षमता साबित की — AI का उपयोग करके Atari गेम खेलना।

DQN: AI जिसने गेम खेलना सीखा

2013 में, DeepMind ने DQN (Deep Q-Network) एल्गोरिदम प्रकाशित किया। यह AI सक्षम थी:

केवल स्क्रीन पिक्सल देखना — कोई गेम नियम नहीं दिए गए
खुद गेम खेलना सीखना — परीक्षण और त्रुटि के माध्यम से
मानव स्तर तक पहुंचना — और कुछ गेम में मनुष्यों से आगे निकल जाना

Breakout में, DQN ने एक रणनीति सीखी जो मनुष्यों को खोजने में घंटों लगते हैं: ईंटों के पीछे गेंद को भेजने के लिए सुरंग खोदना, एक बार में बहुत सारी ईंटें खत्म करना।

इसने साबित किया कि डीप लर्निंग + रीइन्फोर्समेंट लर्निंग का संयोजन ऐसी रणनीतियां खोज सकता है जिनके बारे में मनुष्यों ने कभी नहीं सोचा।

गेम से क्यों शुरू करें?

हसाबिस ने कई कारणों से गेम को अनुसंधान मंच के रूप में चुना:

नियंत्रणीय वातावरण: गेम में स्पष्ट नियम और लक्ष्य होते हैं
मापने योग्य प्रगति: AI क्षमता का मूल्यांकन करने के लिए वस्तुनिष्ठ स्कोर होते हैं
मानव बेंचमार्क: मानव खिलाड़ियों से तुलना की जा सकती है
विविधता: विभिन्न गेम विभिन्न क्षमताओं का परीक्षण करते हैं

यह पद्धति बाद में गो पर लागू की गई।

Google द्वारा अधिग्रहण

500 मिलियन डॉलर का दांव

जनवरी 2014 में, Google ने DeepMind को लगभग 500 मिलियन डॉलर में अधिग्रहित किया। यह उस समय AI क्षेत्र में सबसे बड़े अधिग्रहणों में से एक था।

Google केवल 75 लोगों वाली, बिना किसी उत्पाद वाली कंपनी के लिए इतना भुगतान करने को क्यों तैयार था?

जवाब गेम थ्योरी में है:

Facebook भी बोली लगा रही थी: अफवाहों के अनुसार Facebook ने 400 मिलियन डॉलर की पेशकश की
AI भविष्य की प्रमुख तकनीक है: जो पहले AI में महारत हासिल करेगा, वह भविष्य पर नियंत्रण करेगा
DeepMind सबसे अच्छी टीम है: उन्होंने डीप रीइन्फोर्समेंट लर्निंग की व्यवहार्यता साबित की थी

Google के CEO लैरी पेज ने व्यक्तिगत रूप से हसाबिस को Facebook के बजाय Google चुनने के लिए मनाया।

अधिग्रहण की शर्तें

हसाबिस ने कई महत्वपूर्ण शर्तों पर बातचीत की:

स्वतंत्र संचालन: DeepMind ने लंदन मुख्यालय बनाए रखा, स्वतंत्र R&D
शैक्षणिक स्वतंत्रता: सब कुछ गोपनीय रखने के बजाय पेपर प्रकाशित कर सकते हैं
नैतिकता समिति: AI नैतिकता समीक्षा तंत्र की स्थापना
दीर्घकालिक अनुसंधान: अल्पकालिक व्यावसायीकरण दबाव नहीं

इन शर्तों ने DeepMind को दीर्घकालिक, उच्च-जोखिम अनुसंधान करने की अनुमति दी — जैसे AI से गो जीतना।

Google की AI रणनीति

DeepMind का अधिग्रहण Google की "AI पहले" रणनीति का हिस्सा था:

वर्ष	घटना
2011	Google Brain की स्थापना
2013	DNNresearch का अधिग्रहण (Hinton टीम)
2014	DeepMind का अधिग्रहण
2015	TensorFlow ओपन सोर्स
2016	TPU लॉन्च

Google ने महसूस किया: सर्च, विज्ञापन, अनुवाद, वॉइस — सभी कोर बिजनेस AI द्वारा पुनर्निर्मित होंगे। जिसके पास सबसे अच्छी AI होगी वह विजेता होगा।

गो को लक्ष्य के रूप में चुनना

गो ही क्यों?

Google द्वारा अधिग्रहित होने के बाद, DeepMind के पास अधिक संसाधन थे। हसाबिस ने एक असंभव प्रतीत होने वाले लक्ष्य को चुनौती देने का फैसला किया: AI का उपयोग करके मानव गो विश्व चैंपियन को हराना।

गो ही क्यों चुना, अन्य समस्याएं क्यों नहीं?

1. गो "AI का पवित्र कंघी" है

2016 से पहले, विशेषज्ञों का आम तौर पर मानना था कि AI को गो में मनुष्यों को हराने में कम से कम 10-20 साल लगेंगे। गो को "AI का अंतिम गढ़" कहा जाता था।

कारण:

विशाल सर्च स्पेस: 10^170 संभव स्थितियां (ब्रह्मांड में परमाणुओं की संख्या केवल 10^80 है)
मूल्यांकन कठिन: शतरंज के विपरीत, मोहरों का कोई स्पष्ट मूल्य नहीं
अंतर्ज्ञान पर निर्भरता: शीर्ष खिलाड़ी अक्सर कहते हैं "यह चाल सही लगती है", लेकिन कारण नहीं बता सकते

2. डीप ब्लू का सबक

1997 में, IBM के डीप ब्लू ने शतरंज विश्व चैंपियन कास्परोव को हराया। लेकिन यह जीत विवादास्पद थी:

डीप ब्लू ब्रूट फोर्स सर्च पर निर्भर था (प्रति सेकंड 200 मिलियन स्थितियों का मूल्यांकन)
मानव विशेषज्ञों द्वारा डिज़ाइन किए गए मूल्यांकन फंक्शन का उपयोग करता था
यह वास्तविक "बुद्धिमत्ता" नहीं थी, बल्कि "कंप्यूटेशनल पावर" थी

हसाबिस साबित करना चाहते थे: AI ब्रूट फोर्स के बजाय लर्निंग के माध्यम से समस्याओं को हल कर सकती है।

3. मापने योग्य लक्ष्य

गो में अंतर्राष्ट्रीय रैंकिंग प्रणाली (Elo rating) और पेशेवर खिलाड़ी हैं, जो वस्तुनिष्ठ माप मानक प्रदान करते हैं। यदि AI विश्व चैंपियन को हरा सकती है, तो यह निर्विवाद सफलता होगी।

4. न्यूरोसाइंस से संबंध

मानव खिलाड़ियों का अंतर्ज्ञान — बोर्ड को देखते ही जानना कि कौन सी स्थितियां महत्वपूर्ण हैं — ठीक वही क्षमता है जिसे हसाबिस AI के साथ दोहराना चाहते थे। गो "मशीन अंतर्ज्ञान" का परीक्षण करने के लिए सही परिदृश्य है।

AlphaGo टीम

प्रमुख व्यक्ति

AlphaGo की सफलता बहु-विषयक पृष्ठभूमि वाली टीम से आई:

डेविड सिल्वर: प्रमुख शोधकर्ता

डेविड सिल्वर AlphaGo पेपर के पहले लेखक और रीइन्फोर्समेंट लर्निंग क्षेत्र में शीर्ष विशेषज्ञ हैं।

पृष्ठभूमि: कैम्ब्रिज विश्वविद्यालय गणित स्नातक, अल्बर्टा विश्वविद्यालय से RL पीएचडी
गुरु: रिचर्ड सटन (रीइन्फोर्समेंट लर्निंग के जनक)
विशेषज्ञता: मोंटे कार्लो ट्री सर्च, टेम्पोरल डिफरेंस लर्निंग

सिल्वर ने अपनी पीएचडी थीसिस में कंप्यूटर गो पर शोध किया था, लेकिन उस समय की तकनीक परिपक्व नहीं थी। DeepMind में शामिल होने के बाद, उन्हें आखिरकार इस सपने को साकार करने का मौका मिला।

अजा हुआंग: गो विशेषज्ञ

अजा हुआंग (हुआंग शिह-चिएह) ताइवानी हैं, शौकिया 6 दान खिलाड़ी, और कंप्यूटर गो क्षेत्र में अग्रणी भी।

पृष्ठभूमि: नेशनल ताइवान नॉर्मल यूनिवर्सिटी से कंप्यूटर साइंस पीएचडी
विशेषज्ञता: कंप्यूटर गो प्रोग्रामिंग
प्रसिद्ध कार्य: Erica (प्रारंभिक कंप्यूटर गो प्रोग्राम)

हुआंग ने AlphaGo टीम में महत्वपूर्ण भूमिका निभाई: वे न केवल गो समझते थे, बल्कि AI भी। ली सेडोल के खिलाफ मैचों में, वे ही AlphaGo को ऑपरेट करने वाले व्यक्ति थे।

अन्य प्रमुख सदस्य

सदस्य	भूमिका
क्रिस जे. मैडिसन	मोंटे कार्लो ट्री सर्च विशेषज्ञ
आर्थर गुएज़	रीइन्फोर्समेंट लर्निंग शोधकर्ता
लॉरेंट सिफ्रे	डीप लर्निंग इंजीनियर
जॉर्ज वैन डेन ड्रीशे	वितरित प्रणाली इंजीनियर

अंतर-विषयक सहयोग

AlphaGo की सफलता ने अंतर-विषयक सहयोग की शक्ति साबित की:

गो विशेषज्ञों ने डोमेन ज्ञान प्रदान किया
मशीन लर्निंग शोधकर्ताओं ने एल्गोरिदम डिज़ाइन किए
इंजीनियरों ने बड़े पैमाने पर प्रशिक्षण प्रणालियां लागू कीं
न्यूरोसाइंटिस्टों ने सैद्धांतिक प्रेरणा प्रदान की

यह टीम संरचना बाद में DeepMind का मानक बन गई।

Nature में प्रकाशन

गुप्त आश्चर्य

27 जनवरी 2016 को, DeepMind ने शीर्ष शैक्षणिक पत्रिका Nature में एक पेपर प्रकाशित किया:

"Mastering the game of Go with deep neural networks and tree search"

पेपर ने घोषणा की कि AlphaGo ने:

अन्य सभी गो प्रोग्रामों को हरा दिया था
यूरोपीय चैंपियन फैन हुई (पेशेवर 2 दान) को 5:0 से हराया था

इस खबर ने दुनिया को चौंका दिया। पेपर प्रकाशन से पहले, किसी को नहीं पता था कि DeepMind गो पर शोध कर रही है।

पेपर के मुख्य योगदान

Nature पेपर ने AlphaGo के तीन बड़े नवाचारों का वर्णन किया:

1. Policy Network (पॉलिसी नेटवर्क)

मानव खिलाड़ियों की अगली चाल की भविष्यवाणी करने के लिए डीप कन्वोल्यूशनल न्यूरल नेटवर्क का उपयोग। प्रशिक्षण डेटा 3 करोड़ खेलों के मानव रिकॉर्ड से आया।

सटीकता: 57% (मानव विशेषज्ञों की अगली चाल की भविष्यवाणी)

यह पहले के सबसे अच्छे कंप्यूटर गो प्रोग्रामों से 10 प्रतिशत अंक से अधिक था।

2. Value Network (वैल्यू नेटवर्क)

वर्तमान स्थिति की जीत दर का मूल्यांकन करने के लिए एक अन्य न्यूरल नेटवर्क। इसने पारंपरिक यादृच्छिक सिमुलेशन (Monte Carlo rollout) को बदल दिया।

सटीकता: 15,000 यादृच्छिक सिमुलेशन के बराबर, लेकिन 15,000 गुना तेज

3. मोंटे कार्लो ट्री सर्च इंटीग्रेशन

दोनों न्यूरल नेटवर्क को MCTS फ्रेमवर्क में एकीकृत करना:

Policy Network सर्च दिशा का मार्गदर्शन करती है
Value Network लीफ नोड्स का मूल्यांकन करती है

इसने AlphaGo को "अंतर्ज्ञान" (न्यूरल नेटवर्क) और "तर्क" (ट्री सर्च) दोनों दिए।

शैक्षणिक समुदाय की प्रतिक्रिया

पेपर प्रकाशन के बाद, शैक्षणिक समुदाय ने उत्साहपूर्वक प्रतिक्रिया दी:

"यह कृत्रिम बुद्धिमत्ता का चंद्रमा पर उतरने का क्षण है।" — स्टुअर्ट रसेल, UC बर्कले प्रोफेसर, AI पाठ्यपुस्तक लेखक

"मैंने मूल रूप से सोचा था कि अभी 10 साल और लगेंगे, इतनी जल्दी उम्मीद नहीं थी।" — मार्टिन मुलर, कंप्यूटर गो विशेषज्ञ

लेकिन कुछ संदेहशील भी थे:

"फैन हुई केवल पेशेवर 2 दान हैं, वास्तविक शीर्ष खिलाड़ी नहीं। AlphaGo को पहले ली सेडोल से खेलने दो।"

DeepMind ने इस चुनौती को स्वीकार किया।

ली सेडोल को चुनौती

ली सेडोल ही क्यों?

ली सेडोल कोरियाई खिलाड़ी हैं, जिन्हें पिछले दशक के सबसे मजबूत खिलाड़ियों में से एक माना जाता है:

मापदंड	डेटा
विश्व चैंपियन खिताब	18
अंतर्राष्ट्रीय चैंपियनशिप	32
उच्चतम विश्व रैंकिंग	#1
शैली	"जीनियस" "दैवीय कैलकुलेटर"

ली सेडोल को चुनकर, DeepMind सबसे मजबूत मानव प्रतिद्वंद्वी को चुनौती दे रही थी।

10 लाख डॉलर का पुरस्कार

Google ने इस मैच के लिए 10 लाख डॉलर का पुरस्कार प्रदान किया:

यदि ली सेडोल जीतते: पुरस्कार ली सेडोल को
यदि AlphaGo जीतती: पुरस्कार UNICEF, STEM शिक्षा और अन्य दान में दान

यह केवल एक तकनीकी प्रदर्शन नहीं था, बल्कि वैश्विक ध्यान आकर्षित करने वाला खेल आयोजन भी था।

मैच से पहले की भविष्यवाणियां

मैच से पहले, अधिकांश पेशेवर खिलाड़ियों ने भविष्यवाणी की कि ली सेडोल आसानी से जीतेंगे:

"AlphaGo शायद एक गेम जीत सकती है, लेकिन 5 गेम में मैं 5:0 से जीतूंगा।" — ली सेडोल, मैच-पूर्व साक्षात्कार

"कंप्यूटर कठोरता से खेलते हैं, शीर्ष खिलाड़ी आसानी से कमजोरियां पा सकते हैं।" — एक पेशेवर 9 दान

लेकिन DeepMind टीम का अलग नजरिया था। डेविड सिल्वर ने बाद में बताया:

"हमारे आंतरिक परीक्षणों में, हमने पहले ही AlphaGo को फैन हुई वाले संस्करण के खिलाफ 500 गेम खेलाए थे। नए संस्करण ने 499 जीते।"

मार्च 2016: दुनिया बदलने वाले पांच गेम

पहला गेम: झटका शुरू होता है

9 मार्च 2016, फोर सीज़न्स होटल, सियोल।

ली सेडोल ने काले रंग से पहले खेला, AlphaGo सफेद से। 3 घंटे 28 मिनट के खेल के बाद, AlphaGo ने मध्य-खेल में रिज़ाइन करके जीत हासिल की।

यह पहली बार था जब किसी शीर्ष मानव खिलाड़ी ने आधिकारिक तौर पर AI से हार मानी।

दूसरा गेम: दैवीय चाल

दूसरे गेम में वह पैदा हुई जिसे "दैवीय चाल" के रूप में जाना जाता है 37वीं चाल पर — AlphaGo ने पांचवीं लाइन पर एक शोल्डर हिट किया जिसे सभी पेशेवर खिलाड़ियों ने गलती समझा, लेकिन जो जीत की कुंजी साबित हुई।

(विवरण के लिए अगला लेख देखें: "दैवीय चाल" का गहन विश्लेषण)

AlphaGo फिर से जीती।

तीसरा गेम: 3:0

तीसरे गेम में, ली सेडोल ने एक गैर-पारंपरिक ओपनिंग का प्रयास किया, लेकिन AlphaGo ने आसानी से जवाब दिया। 3:0।

दुनिया को एहसास होने लगा: यह संयोग नहीं था, AI वास्तव में मनुष्यों से आगे निकल गई है।

चौथा गेम: मानव का जवाबी हमला

चौथे गेम में, ली सेडोल ने वह किया जिसे "दैवीय चाल" के रूप में जाना जाता है 78वीं चाल पर — एक शानदार वेज जिसने AlphaGo में भ्रम पैदा किया।

AlphaGo ने अगली कुछ चालों में स्पष्ट रूप से खराब चालें चलीं और अंत में रिज़ाइन कर दिया।

इस जीत ने साबित किया: AI की भी कमजोरियां हैं। ली सेडोल ने उसे खोज लिया।

पांचवां गेम: अंतिम स्कोर

पांचवें गेम में, AlphaGo सामान्य स्थिति में लौट आई और मध्य-खेल में रिज़ाइन जीत के साथ मैच समाप्त किया।

अंतिम स्कोर: AlphaGo 4:1 ली सेडोल

प्रभाव और परिणाम

वैश्विक ध्यान

इस मैच का प्रभाव गो की दुनिया से बहुत आगे गया:

दुनिया भर में 20 करोड़ लोगों ने लाइव प्रसारण देखा
द न्यूयॉर्क टाइम्स, द इकोनॉमिस्ट और अन्य मुख्यधारा मीडिया ने व्यापक कवरेज दी
मैच के दौरान Google के शेयर की कीमत बढ़ी
"कृत्रिम बुद्धिमत्ता" उस वर्ष का सबसे लोकप्रिय तकनीकी विषय बन गई

गो जगत पर प्रभाव

मैच के बाद, पेशेवर खिलाड़ियों का रवैया "तिरस्कार" से "सम्मान" में बदल गया:

"हम सोचते थे कि मनुष्य गो समझते हैं, अब पता चला कि हम केवल थोड़ा जानते हैं।" — के जी, चीनी खिलाड़ी, उस समय विश्व #1

कई पेशेवर खिलाड़ियों ने प्रशिक्षण के लिए AI का उपयोग शुरू किया, और गो खेलने का तरीका भी बदल गया।

AI क्षेत्र पर प्रभाव

AlphaGo ने कई चीजें साबित कीं:

डीप लर्निंग विशेषज्ञ-स्तर की समस्याओं को हल कर सकती है: न केवल बिल्लियों और कुत्तों की पहचान, बल्कि गो भी खेल सकती है
रीइन्फोर्समेंट लर्निंग मनुष्यों से आगे निकल सकती है: सेल्फ-प्ले के माध्यम से, AI मनुष्यों के लिए अज्ञात रणनीतियां खोज सकती है
न्यूरल नेटवर्क + सर्च एक शक्तिशाली संयोजन है: अंतर्ज्ञान + तर्क = मजबूत बुद्धिमत्ता

ये अंतर्दृष्टि बाद में लागू हुईं:

AlphaFold: प्रोटीन संरचना भविष्यवाणी (2020 नोबेल पुरस्कार स्तर की उपलब्धि)
AlphaZero: सामान्य गेम AI
MuZero: बिना नियमों के सीखना

एनिमेशन पत्राचार

इस लेख में शामिल मुख्य अवधारणाएं और एनिमेशन संख्याएं:

संख्या	अवधारणा	भौतिकी/गणित पत्राचार
E7	शून्य से	स्व-संगठन
E5	सेल्फ-प्ले	फिक्स्ड पॉइंट कन्वर्जेंस
F8	उभरती क्षमताएं	फेज ट्रांजिशन
H4	पॉलिसी ग्रेडिएंट	स्टोकेस्टिक ऑप्टिमाइजेशन

आगे पढ़ें

अगला लेख: प्रमुख मैचों की समीक्षा — फैन हुई, ली सेडोल, के जी के मैचों का पूर्ण विश्लेषण
तकनीकी विवरण: Policy Network विस्तार से — AlphaGo ने खेलना कैसे सीखा
व्यावहारिक अनुभव: 30 मिनट में अपना पहला गो AI चलाएं — स्वयं अनुभव करें

संदर्भ

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
AlphaGo डॉक्यूमेंट्री (2017), निर्देशक ग्रेग कोह्स।

DeepMind की स्थापना​

डेमिस हसाबिस: बाल प्रतिभा से AI अग्रणी तक​

शतरंज बाल प्रतिभा​

गेम डिज़ाइनर​

संज्ञानात्मक न्यूरोसाइंटिस्ट​

सह-संस्थापक​

"बुद्धिमत्ता को हल करो, फिर इसे सब कुछ हल करने के लिए उपयोग करो"​

प्रारंभिक सफलता: Atari गेम्स​

DQN: AI जिसने गेम खेलना सीखा​

गेम से क्यों शुरू करें?​

Google द्वारा अधिग्रहण​

500 मिलियन डॉलर का दांव​

अधिग्रहण की शर्तें​

Google की AI रणनीति​

गो को लक्ष्य के रूप में चुनना​

गो ही क्यों?​

1. गो "AI का पवित्र कंघी" है​

2. डीप ब्लू का सबक​

3. मापने योग्य लक्ष्य​

4. न्यूरोसाइंस से संबंध​

AlphaGo टीम​

प्रमुख व्यक्ति​

डेविड सिल्वर: प्रमुख शोधकर्ता​

अजा हुआंग: गो विशेषज्ञ​

अन्य प्रमुख सदस्य​

अंतर-विषयक सहयोग​

Nature में प्रकाशन​

गुप्त आश्चर्य​

पेपर के मुख्य योगदान​

1. Policy Network (पॉलिसी नेटवर्क)​

2. Value Network (वैल्यू नेटवर्क)​

3. मोंटे कार्लो ट्री सर्च इंटीग्रेशन​

शैक्षणिक समुदाय की प्रतिक्रिया​

ली सेडोल को चुनौती​

ली सेडोल ही क्यों?​

10 लाख डॉलर का पुरस्कार​

मैच से पहले की भविष्यवाणियां​

मार्च 2016: दुनिया बदलने वाले पांच गेम​

पहला गेम: झटका शुरू होता है​

दूसरा गेम: दैवीय चाल​

तीसरा गेम: 3:0​

चौथा गेम: मानव का जवाबी हमला​

पांचवां गेम: अंतिम स्कोर​

प्रभाव और परिणाम​

वैश्विक ध्यान​

गो जगत पर प्रभाव​

AI क्षेत्र पर प्रभाव​

एनिमेशन पत्राचार​

आगे पढ़ें​

संदर्भ​