मुख्य कंटेंट तक स्किप करें

AlphaGo का जन्म

मार्च 2016 में, जब AlphaGo ने ली सेडोल को 4:1 से हराया, तो पूरी दुनिया ने पूछा: यह प्रोग्राम जिसने कृत्रिम बुद्धिमत्ता का इतिहास बदल दिया, आखिर कैसे पैदा हुई?

जवाब एक शतरंज के बाल प्रतिभा के सपने से शुरू होता है।


DeepMind की स्थापना

डेमिस हसाबिस: बाल प्रतिभा से AI अग्रणी तक

डेमिस हसाबिस DeepMind के सह-संस्थापक और CEO हैं। उनका जीवन अनुभव लगभग AlphaGo बनाने के लिए तैयार किया गया था।

शतरंज बाल प्रतिभा

1975 में लंदन में जन्मे हसाबिस ने 4 साल की उम्र में शतरंज खेलना सीखा और 13 साल की उम्र में शतरंज मास्टर स्तर (Elo 2300+) तक पहुंच गए, जो ब्रिटिश इतिहास में इस स्तर पर पहुंचने वाले दूसरे सबसे कम उम्र के खिलाड़ी थे।

इस अनुभव ने उन्हें गहरी समझ दी:

  • बोर्ड गेम बुद्धिमत्ता की कसौटी हैं: शतरंज खेलने के लिए योजना, अंतर्ज्ञान और पैटर्न पहचान की आवश्यकता होती है
  • मानव बुद्धिमत्ता का सार: खिलाड़ी विशाल संभावनाओं में से अच्छी चालें कैसे खोजते हैं?
  • कंप्यूटर की सीमाएं: 1997 में डीप ब्लू की कास्परोव पर जीत ब्रूट फोर्स सर्च पर आधारित थी, वास्तविक "समझ" पर नहीं

गेम डिज़ाइनर

17 साल की उम्र में, हसाबिस Bullfrog Productions में शामिल हुए (पीटर मोलीन्यू द्वारा स्थापित गेम कंपनी, "पॉपुलस" के निर्माता), क्लासिक गेम "थीम पार्क" के विकास में भाग लिया। इस अनुभव ने उन्हें सिखाया:

  • जटिल प्रणालियां कैसे डिज़ाइन करें: गेम वास्तविक दुनिया का अनुकरण करने वाले सरलीकृत मॉडल हैं
  • खिलाड़ी व्यवहार पूर्वानुमान: AI को मानव निर्णय लेने की प्रक्रिया को समझने की जरूरत है

संज्ञानात्मक न्यूरोसाइंटिस्ट

कैम्ब्रिज विश्वविद्यालय से कंप्यूटर विज्ञान में डिग्री प्राप्त करने के बाद, हसाबिस ने यूनिवर्सिटी कॉलेज लंदन (UCL) से संज्ञानात्मक न्यूरोसाइंस में पीएचडी प्राप्त की। उनका शोध विषय था: हिप्पोकैम्पस मनुष्यों को कल्पना और योजना कैसे करने देता है

इस शोध ने पाया:

  • मानव स्मृति और कल्पना समान मस्तिष्क क्षेत्र का उपयोग करती हैं
  • हम "मानसिक समय यात्रा" के माध्यम से भविष्य की योजना बनाते हैं
  • यह क्षमता बुद्धिमत्ता का मूल हो सकती है

इन अंतर्दृष्टियों ने सीधे बाद में AlphaGo के डिज़ाइन को प्रभावित किया — AI को भविष्य की चालों की "कल्पना" करने और उनसे सीखने में सक्षम बनाना।

सह-संस्थापक

2010 में, हसाबिस ने दो साथियों के साथ DeepMind की सह-स्थापना की:

संस्थापकपृष्ठभूमियोगदान
डेमिस हसाबिसन्यूरोसाइंस, गेम डिज़ाइनविज़न और रणनीति
शेन लेगमशीन लर्निंग पीएचडीAGI सैद्धांतिक आधार
मुस्तफा सुलेमानसामाजिक उद्यमीव्यवसाय और अनुप्रयोग

"बुद्धिमत्ता को हल करो, फिर इसे सब कुछ हल करने के लिए उपयोग करो"

DeepMind का मिशन स्टेटमेंट है:

"Solve intelligence, and then use that to solve everything else."

"बुद्धिमत्ता को हल करो, और फिर इसका उपयोग बाकी सब कुछ हल करने के लिए करो।"

यह एक साधारण AI कंपनी नहीं है। उनका लक्ष्य उत्पाद बनाना नहीं है, बल्कि आर्टिफिशियल जनरल इंटेलिजेंस (AGI) बनाना है — एक AI जो मनुष्यों की तरह सोच सके, सीख सके और किसी भी समस्या को हल कर सके।

"बुद्धिमत्ता को हल करने" को पहले क्यों? क्योंकि एक बार हमारे पास AGI होगी, यह जलवायु परिवर्तन, बीमारियों, ऊर्जा जैसी मानवता की सबसे बड़ी चुनौतियों को हल करने में हमारी मदद कर सकती है।


प्रारंभिक सफलता: Atari गेम्स

गो को चुनौती देने से पहले, DeepMind ने पहले अपनी क्षमता साबित की — AI का उपयोग करके Atari गेम खेलना।

DQN: AI जिसने गेम खेलना सीखा

2013 में, DeepMind ने DQN (Deep Q-Network) एल्गोरिदम प्रकाशित किया। यह AI सक्षम थी:

  1. केवल स्क्रीन पिक्सल देखना — कोई गेम नियम नहीं दिए गए
  2. खुद गेम खेलना सीखना — परीक्षण और त्रुटि के माध्यम से
  3. मानव स्तर तक पहुंचना — और कुछ गेम में मनुष्यों से आगे निकल जाना

Breakout में, DQN ने एक रणनीति सीखी जो मनुष्यों को खोजने में घंटों लगते हैं: ईंटों के पीछे गेंद को भेजने के लिए सुरंग खोदना, एक बार में बहुत सारी ईंटें खत्म करना

इसने साबित किया कि डीप लर्निंग + रीइन्फोर्समेंट लर्निंग का संयोजन ऐसी रणनीतियां खोज सकता है जिनके बारे में मनुष्यों ने कभी नहीं सोचा।

गेम से क्यों शुरू करें?

हसाबिस ने कई कारणों से गेम को अनुसंधान मंच के रूप में चुना:

  1. नियंत्रणीय वातावरण: गेम में स्पष्ट नियम और लक्ष्य होते हैं
  2. मापने योग्य प्रगति: AI क्षमता का मूल्यांकन करने के लिए वस्तुनिष्ठ स्कोर होते हैं
  3. मानव बेंचमार्क: मानव खिलाड़ियों से तुलना की जा सकती है
  4. विविधता: विभिन्न गेम विभिन्न क्षमताओं का परीक्षण करते हैं

यह पद्धति बाद में गो पर लागू की गई।


Google द्वारा अधिग्रहण

500 मिलियन डॉलर का दांव

जनवरी 2014 में, Google ने DeepMind को लगभग 500 मिलियन डॉलर में अधिग्रहित किया। यह उस समय AI क्षेत्र में सबसे बड़े अधिग्रहणों में से एक था।

Google केवल 75 लोगों वाली, बिना किसी उत्पाद वाली कंपनी के लिए इतना भुगतान करने को क्यों तैयार था?

जवाब गेम थ्योरी में है:

  • Facebook भी बोली लगा रही थी: अफवाहों के अनुसार Facebook ने 400 मिलियन डॉलर की पेशकश की
  • AI भविष्य की प्रमुख तकनीक है: जो पहले AI में महारत हासिल करेगा, वह भविष्य पर नियंत्रण करेगा
  • DeepMind सबसे अच्छी टीम है: उन्होंने डीप रीइन्फोर्समेंट लर्निंग की व्यवहार्यता साबित की थी

Google के CEO लैरी पेज ने व्यक्तिगत रूप से हसाबिस को Facebook के बजाय Google चुनने के लिए मनाया।

अधिग्रहण की शर्तें

हसाबिस ने कई महत्वपूर्ण शर्तों पर बातचीत की:

  1. स्वतंत्र संचालन: DeepMind ने लंदन मुख्यालय बनाए रखा, स्वतंत्र R&D
  2. शैक्षणिक स्वतंत्रता: सब कुछ गोपनीय रखने के बजाय पेपर प्रकाशित कर सकते हैं
  3. नैतिकता समिति: AI नैतिकता समीक्षा तंत्र की स्थापना
  4. दीर्घकालिक अनुसंधान: अल्पकालिक व्यावसायीकरण दबाव नहीं

इन शर्तों ने DeepMind को दीर्घकालिक, उच्च-जोखिम अनुसंधान करने की अनुमति दी — जैसे AI से गो जीतना।

Google की AI रणनीति

DeepMind का अधिग्रहण Google की "AI पहले" रणनीति का हिस्सा था:

वर्षघटना
2011Google Brain की स्थापना
2013DNNresearch का अधिग्रहण (Hinton टीम)
2014DeepMind का अधिग्रहण
2015TensorFlow ओपन सोर्स
2016TPU लॉन्च

Google ने महसूस किया: सर्च, विज्ञापन, अनुवाद, वॉइस — सभी कोर बिजनेस AI द्वारा पुनर्निर्मित होंगे। जिसके पास सबसे अच्छी AI होगी वह विजेता होगा।


गो को लक्ष्य के रूप में चुनना

गो ही क्यों?

Google द्वारा अधिग्रहित होने के बाद, DeepMind के पास अधिक संसाधन थे। हसाबिस ने एक असंभव प्रतीत होने वाले लक्ष्य को चुनौती देने का फैसला किया: AI का उपयोग करके मानव गो विश्व चैंपियन को हराना

गो ही क्यों चुना, अन्य समस्याएं क्यों नहीं?

1. गो "AI का पवित्र कंघी" है

2016 से पहले, विशेषज्ञों का आम तौर पर मानना था कि AI को गो में मनुष्यों को हराने में कम से कम 10-20 साल लगेंगे। गो को "AI का अंतिम गढ़" कहा जाता था।

कारण:

  • विशाल सर्च स्पेस: 10^170 संभव स्थितियां (ब्रह्मांड में परमाणुओं की संख्या केवल 10^80 है)
  • मूल्यांकन कठिन: शतरंज के विपरीत, मोहरों का कोई स्पष्ट मूल्य नहीं
  • अंतर्ज्ञान पर निर्भरता: शीर्ष खिलाड़ी अक्सर कहते हैं "यह चाल सही लगती है", लेकिन कारण नहीं बता सकते

2. डीप ब्लू का सबक

1997 में, IBM के डीप ब्लू ने शतरंज विश्व चैंपियन कास्परोव को हराया। लेकिन यह जीत विवादास्पद थी:

  • डीप ब्लू ब्रूट फोर्स सर्च पर निर्भर था (प्रति सेकंड 200 मिलियन स्थितियों का मूल्यांकन)
  • मानव विशेषज्ञों द्वारा डिज़ाइन किए गए मूल्यांकन फंक्शन का उपयोग करता था
  • यह वास्तविक "बुद्धिमत्ता" नहीं थी, बल्कि "कंप्यूटेशनल पावर" थी

हसाबिस साबित करना चाहते थे: AI ब्रूट फोर्स के बजाय लर्निंग के माध्यम से समस्याओं को हल कर सकती है।

3. मापने योग्य लक्ष्य

गो में अंतर्राष्ट्रीय रैंकिंग प्रणाली (Elo rating) और पेशेवर खिलाड़ी हैं, जो वस्तुनिष्ठ माप मानक प्रदान करते हैं। यदि AI विश्व चैंपियन को हरा सकती है, तो यह निर्विवाद सफलता होगी।

4. न्यूरोसाइंस से संबंध

मानव खिलाड़ियों का अंतर्ज्ञान — बोर्ड को देखते ही जानना कि कौन सी स्थितियां महत्वपूर्ण हैं — ठीक वही क्षमता है जिसे हसाबिस AI के साथ दोहराना चाहते थे। गो "मशीन अंतर्ज्ञान" का परीक्षण करने के लिए सही परिदृश्य है।


AlphaGo टीम

प्रमुख व्यक्ति

AlphaGo की सफलता बहु-विषयक पृष्ठभूमि वाली टीम से आई:

डेविड सिल्वर: प्रमुख शोधकर्ता

डेविड सिल्वर AlphaGo पेपर के पहले लेखक और रीइन्फोर्समेंट लर्निंग क्षेत्र में शीर्ष विशेषज्ञ हैं।

  • पृष्ठभूमि: कैम्ब्रिज विश्वविद्यालय गणित स्नातक, अल्बर्टा विश्वविद्यालय से RL पीएचडी
  • गुरु: रिचर्ड सटन (रीइन्फोर्समेंट लर्निंग के जनक)
  • विशेषज्ञता: मोंटे कार्लो ट्री सर्च, टेम्पोरल डिफरेंस लर्निंग

सिल्वर ने अपनी पीएचडी थीसिस में कंप्यूटर गो पर शोध किया था, लेकिन उस समय की तकनीक परिपक्व नहीं थी। DeepMind में शामिल होने के बाद, उन्हें आखिरकार इस सपने को साकार करने का मौका मिला।

अजा हुआंग: गो विशेषज्ञ

अजा हुआंग (हुआंग शिह-चिएह) ताइवानी हैं, शौकिया 6 दान खिलाड़ी, और कंप्यूटर गो क्षेत्र में अग्रणी भी।

  • पृष्ठभूमि: नेशनल ताइवान नॉर्मल यूनिवर्सिटी से कंप्यूटर साइंस पीएचडी
  • विशेषज्ञता: कंप्यूटर गो प्रोग्रामिंग
  • प्रसिद्ध कार्य: Erica (प्रारंभिक कंप्यूटर गो प्रोग्राम)

हुआंग ने AlphaGo टीम में महत्वपूर्ण भूमिका निभाई: वे न केवल गो समझते थे, बल्कि AI भी। ली सेडोल के खिलाफ मैचों में, वे ही AlphaGo को ऑपरेट करने वाले व्यक्ति थे।

अन्य प्रमुख सदस्य

सदस्यभूमिका
क्रिस जे. मैडिसनमोंटे कार्लो ट्री सर्च विशेषज्ञ
आर्थर गुएज़रीइन्फोर्समेंट लर्निंग शोधकर्ता
लॉरेंट सिफ्रेडीप लर्निंग इंजीनियर
जॉर्ज वैन डेन ड्रीशेवितरित प्रणाली इंजीनियर

अंतर-विषयक सहयोग

AlphaGo की सफलता ने अंतर-विषयक सहयोग की शक्ति साबित की:

  • गो विशेषज्ञों ने डोमेन ज्ञान प्रदान किया
  • मशीन लर्निंग शोधकर्ताओं ने एल्गोरिदम डिज़ाइन किए
  • इंजीनियरों ने बड़े पैमाने पर प्रशिक्षण प्रणालियां लागू कीं
  • न्यूरोसाइंटिस्टों ने सैद्धांतिक प्रेरणा प्रदान की

यह टीम संरचना बाद में DeepMind का मानक बन गई।


Nature में प्रकाशन

गुप्त आश्चर्य

27 जनवरी 2016 को, DeepMind ने शीर्ष शैक्षणिक पत्रिका Nature में एक पेपर प्रकाशित किया:

"Mastering the game of Go with deep neural networks and tree search"

पेपर ने घोषणा की कि AlphaGo ने:

  1. अन्य सभी गो प्रोग्रामों को हरा दिया था
  2. यूरोपीय चैंपियन फैन हुई (पेशेवर 2 दान) को 5:0 से हराया था

इस खबर ने दुनिया को चौंका दिया। पेपर प्रकाशन से पहले, किसी को नहीं पता था कि DeepMind गो पर शोध कर रही है।

पेपर के मुख्य योगदान

Nature पेपर ने AlphaGo के तीन बड़े नवाचारों का वर्णन किया:

1. Policy Network (पॉलिसी नेटवर्क)

मानव खिलाड़ियों की अगली चाल की भविष्यवाणी करने के लिए डीप कन्वोल्यूशनल न्यूरल नेटवर्क का उपयोग। प्रशिक्षण डेटा 3 करोड़ खेलों के मानव रिकॉर्ड से आया।

सटीकता: 57% (मानव विशेषज्ञों की अगली चाल की भविष्यवाणी)

यह पहले के सबसे अच्छे कंप्यूटर गो प्रोग्रामों से 10 प्रतिशत अंक से अधिक था।

2. Value Network (वैल्यू नेटवर्क)

वर्तमान स्थिति की जीत दर का मूल्यांकन करने के लिए एक अन्य न्यूरल नेटवर्क। इसने पारंपरिक यादृच्छिक सिमुलेशन (Monte Carlo rollout) को बदल दिया।

सटीकता: 15,000 यादृच्छिक सिमुलेशन के बराबर, लेकिन 15,000 गुना तेज

3. मोंटे कार्लो ट्री सर्च इंटीग्रेशन

दोनों न्यूरल नेटवर्क को MCTS फ्रेमवर्क में एकीकृत करना:

  • Policy Network सर्च दिशा का मार्गदर्शन करती है
  • Value Network लीफ नोड्स का मूल्यांकन करती है

इसने AlphaGo को "अंतर्ज्ञान" (न्यूरल नेटवर्क) और "तर्क" (ट्री सर्च) दोनों दिए।

शैक्षणिक समुदाय की प्रतिक्रिया

पेपर प्रकाशन के बाद, शैक्षणिक समुदाय ने उत्साहपूर्वक प्रतिक्रिया दी:

"यह कृत्रिम बुद्धिमत्ता का चंद्रमा पर उतरने का क्षण है।" — स्टुअर्ट रसेल, UC बर्कले प्रोफेसर, AI पाठ्यपुस्तक लेखक

"मैंने मूल रूप से सोचा था कि अभी 10 साल और लगेंगे, इतनी जल्दी उम्मीद नहीं थी।" — मार्टिन मुलर, कंप्यूटर गो विशेषज्ञ

लेकिन कुछ संदेहशील भी थे:

"फैन हुई केवल पेशेवर 2 दान हैं, वास्तविक शीर्ष खिलाड़ी नहीं। AlphaGo को पहले ली सेडोल से खेलने दो।"

DeepMind ने इस चुनौती को स्वीकार किया।


ली सेडोल को चुनौती

ली सेडोल ही क्यों?

ली सेडोल कोरियाई खिलाड़ी हैं, जिन्हें पिछले दशक के सबसे मजबूत खिलाड़ियों में से एक माना जाता है:

मापदंडडेटा
विश्व चैंपियन खिताब18
अंतर्राष्ट्रीय चैंपियनशिप32
उच्चतम विश्व रैंकिंग#1
शैली"जीनियस" "दैवीय कैलकुलेटर"

ली सेडोल को चुनकर, DeepMind सबसे मजबूत मानव प्रतिद्वंद्वी को चुनौती दे रही थी।

10 लाख डॉलर का पुरस्कार

Google ने इस मैच के लिए 10 लाख डॉलर का पुरस्कार प्रदान किया:

  • यदि ली सेडोल जीतते: पुरस्कार ली सेडोल को
  • यदि AlphaGo जीतती: पुरस्कार UNICEF, STEM शिक्षा और अन्य दान में दान

यह केवल एक तकनीकी प्रदर्शन नहीं था, बल्कि वैश्विक ध्यान आकर्षित करने वाला खेल आयोजन भी था।

मैच से पहले की भविष्यवाणियां

मैच से पहले, अधिकांश पेशेवर खिलाड़ियों ने भविष्यवाणी की कि ली सेडोल आसानी से जीतेंगे:

"AlphaGo शायद एक गेम जीत सकती है, लेकिन 5 गेम में मैं 5:0 से जीतूंगा।" — ली सेडोल, मैच-पूर्व साक्षात्कार

"कंप्यूटर कठोरता से खेलते हैं, शीर्ष खिलाड़ी आसानी से कमजोरियां पा सकते हैं।" — एक पेशेवर 9 दान

लेकिन DeepMind टीम का अलग नजरिया था। डेविड सिल्वर ने बाद में बताया:

"हमारे आंतरिक परीक्षणों में, हमने पहले ही AlphaGo को फैन हुई वाले संस्करण के खिलाफ 500 गेम खेलाए थे। नए संस्करण ने 499 जीते।"


मार्च 2016: दुनिया बदलने वाले पांच गेम

पहला गेम: झटका शुरू होता है

9 मार्च 2016, फोर सीज़न्स होटल, सियोल।

ली सेडोल ने काले रंग से पहले खेला, AlphaGo सफेद से। 3 घंटे 28 मिनट के खेल के बाद, AlphaGo ने मध्य-खेल में रिज़ाइन करके जीत हासिल की।

यह पहली बार था जब किसी शीर्ष मानव खिलाड़ी ने आधिकारिक तौर पर AI से हार मानी।

दूसरा गेम: दैवीय चाल

दूसरे गेम में वह पैदा हुई जिसे "दैवीय चाल" के रूप में जाना जाता है 37वीं चाल पर — AlphaGo ने पांचवीं लाइन पर एक शोल्डर हिट किया जिसे सभी पेशेवर खिलाड़ियों ने गलती समझा, लेकिन जो जीत की कुंजी साबित हुई।

(विवरण के लिए अगला लेख देखें: "दैवीय चाल" का गहन विश्लेषण)

AlphaGo फिर से जीती।

तीसरा गेम: 3:0

तीसरे गेम में, ली सेडोल ने एक गैर-पारंपरिक ओपनिंग का प्रयास किया, लेकिन AlphaGo ने आसानी से जवाब दिया। 3:0।

दुनिया को एहसास होने लगा: यह संयोग नहीं था, AI वास्तव में मनुष्यों से आगे निकल गई है।

चौथा गेम: मानव का जवाबी हमला

चौथे गेम में, ली सेडोल ने वह किया जिसे "दैवीय चाल" के रूप में जाना जाता है 78वीं चाल पर — एक शानदार वेज जिसने AlphaGo में भ्रम पैदा किया।

AlphaGo ने अगली कुछ चालों में स्पष्ट रूप से खराब चालें चलीं और अंत में रिज़ाइन कर दिया।

इस जीत ने साबित किया: AI की भी कमजोरियां हैं। ली सेडोल ने उसे खोज लिया।

पांचवां गेम: अंतिम स्कोर

पांचवें गेम में, AlphaGo सामान्य स्थिति में लौट आई और मध्य-खेल में रिज़ाइन जीत के साथ मैच समाप्त किया।

अंतिम स्कोर: AlphaGo 4:1 ली सेडोल


प्रभाव और परिणाम

वैश्विक ध्यान

इस मैच का प्रभाव गो की दुनिया से बहुत आगे गया:

  • दुनिया भर में 20 करोड़ लोगों ने लाइव प्रसारण देखा
  • द न्यूयॉर्क टाइम्स, द इकोनॉमिस्ट और अन्य मुख्यधारा मीडिया ने व्यापक कवरेज दी
  • मैच के दौरान Google के शेयर की कीमत बढ़ी
  • "कृत्रिम बुद्धिमत्ता" उस वर्ष का सबसे लोकप्रिय तकनीकी विषय बन गई

गो जगत पर प्रभाव

मैच के बाद, पेशेवर खिलाड़ियों का रवैया "तिरस्कार" से "सम्मान" में बदल गया:

"हम सोचते थे कि मनुष्य गो समझते हैं, अब पता चला कि हम केवल थोड़ा जानते हैं।" — के जी, चीनी खिलाड़ी, उस समय विश्व #1

कई पेशेवर खिलाड़ियों ने प्रशिक्षण के लिए AI का उपयोग शुरू किया, और गो खेलने का तरीका भी बदल गया।

AI क्षेत्र पर प्रभाव

AlphaGo ने कई चीजें साबित कीं:

  1. डीप लर्निंग विशेषज्ञ-स्तर की समस्याओं को हल कर सकती है: न केवल बिल्लियों और कुत्तों की पहचान, बल्कि गो भी खेल सकती है
  2. रीइन्फोर्समेंट लर्निंग मनुष्यों से आगे निकल सकती है: सेल्फ-प्ले के माध्यम से, AI मनुष्यों के लिए अज्ञात रणनीतियां खोज सकती है
  3. न्यूरल नेटवर्क + सर्च एक शक्तिशाली संयोजन है: अंतर्ज्ञान + तर्क = मजबूत बुद्धिमत्ता

ये अंतर्दृष्टि बाद में लागू हुईं:

  • AlphaFold: प्रोटीन संरचना भविष्यवाणी (2020 नोबेल पुरस्कार स्तर की उपलब्धि)
  • AlphaZero: सामान्य गेम AI
  • MuZero: बिना नियमों के सीखना

एनिमेशन पत्राचार

इस लेख में शामिल मुख्य अवधारणाएं और एनिमेशन संख्याएं:

संख्याअवधारणाभौतिकी/गणित पत्राचार
E7शून्य सेस्व-संगठन
E5सेल्फ-प्लेफिक्स्ड पॉइंट कन्वर्जेंस
F8उभरती क्षमताएंफेज ट्रांजिशन
H4पॉलिसी ग्रेडिएंटस्टोकेस्टिक ऑप्टिमाइजेशन

आगे पढ़ें


संदर्भ

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
  3. Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
  4. AlphaGo डॉक्यूमेंट्री (2017), निर्देशक ग्रेग कोह्स।