मुख्य कंटेंट तक स्किप करें

"दिव्य चाल" का गहन विश्लेषण

10 मार्च 2016, AlphaGo और ली सेडोल का दूसरा मैच। 37वीं चाल पर, AlphaGo ने ऊपरी दाएं कोने में पांचवीं लाइन पर "शोल्डर हिट" (कंधे की टक्कर) खेली।

इस चाल को बाद में "दिव्य चाल" (Divine Move) कहा गया। इसने न केवल AlphaGo को मैच जीतने में मदद की, बल्कि गो के बारे में मानवीय समझ को भी बदल दिया।

यह लेख इस चाल का कई दृष्टिकोणों से गहन विश्लेषण करेगा: मैच का संदर्भ, पारंपरिक शतरंज सिद्धांत, विशेषज्ञ प्रतिक्रिया, AI दृष्टिकोण, और गो सिद्धांत पर इसका दीर्घकालिक प्रभाव।


मैच की स्थिति की समीक्षा

दूसरे मैच की शुरुआत

पहले मैच में हारने के बाद, ली सेडोल ने दूसरे मैच में अपनी रणनीति बदली। उन्होंने सफेद पत्थरों के साथ दूसरी बारी लेना चुना, ताकि AlphaGo की शुरुआती प्रवृत्तियों को देखकर रणनीति बना सकें।

शुरुआती चरण:

  • काला 1: ऊपरी दाएं कोने का स्टार पॉइंट
  • सफेद 2: निचले बाएं कोने का स्टार पॉइंट
  • काला 3-सफेद 4: दोनों ने एक-एक कोना लिया

36वीं चाल तक, खेल सामान्य रूप से विकसित हुआ। AlphaGo काले पत्थरों के साथ खेल रहा था और ऊपरी दाएं कोने में स्थानीय लड़ाई कर रहा था। सफेद (ली सेडोल) ने दाईं ओर प्रभाव स्थापित किया था, जबकि काले का ऊपरी भाग में कुछ क्षेत्र था।

36वीं चाल के बाद की स्थिति

आइए 36वीं चाल के बाद बोर्ड की स्थिति देखें:

ABCDEFGHJKLMNOPQRST
19
18
17
16+++
15
14सफेद का प्रभाव
13
12
11
10+++
9
8
7
6
5
4+++
3
2
1

सरलीकृत आरेख, वास्तविक स्थिति अधिक जटिल है

मुख्य अवलोकन:

  • सफेद के पास दाईं ओर बाहरी प्रभाव है
  • काले के पास ऊपरी भाग में क्षेत्र की संभावना है
  • ऊपरी दाएं कोने की लड़ाई अस्थायी रूप से समाप्त हुई

इस समय, काले (AlphaGo) की बारी थी।


पारंपरिक चाल का विश्लेषण

पेशेवर खिलाड़ियों की अपेक्षा

37वीं चाल से पहले, कमेंट्री रूम में पेशेवर खिलाड़ी जोरदार चर्चा कर रहे थे। उन्होंने आमतौर पर उम्मीद की थी कि काला निम्नलिखित में से कोई चाल चुनेगा:

विकल्प A: निचले दाएं कोने में अप्रोच

यह सबसे "सामान्य" विकल्प था। काला कर सकता था:

  • अंतिम बड़े बिंदु (निचला दायां कोना) लेना
  • स्थिति का संतुलन बनाए रखना
  • "कोने सोना, किनारे चांदी, केंद्र घास" के पारंपरिक मूल्य का पालन करना

विकल्प B: ऊपरी भाग में क्षेत्र बनाना

काला ऊपरी भाग में दो या तीन की दूरी पर फैलकर अपने प्रभाव क्षेत्र को मजबूत कर सकता था। इससे होता:

  • ऊपरी भाग की क्षमता को क्षेत्र में बदलना
  • सफेद के विकास स्थान को सीमित करना

विकल्प C: केंद्र में घुसपैठ

कुछ खिलाड़ियों ने सोचा कि काला केंद्र में खेल सकता है, सफेद के दाहिने प्रभाव को रोकने के लिए। हालांकि यह सबसे आम विकल्प नहीं था, यह रणनीतिक रूप से समझ में आता था।

🎬 C3: पारंपरिक शतरंज सिद्धांत का मूल्य निर्णय

जिस विकल्प की किसी ने उम्मीद नहीं की थी

हालांकि, AlphaGo ने एक ऐसी जगह चुनी जिसके बारे में लगभग कोई नहीं सोचता था:

E5 (पांचवीं लाइन शोल्डर हिट)

यह चाल बोर्ड के दाहिने आधे हिस्से में, केंद्र के पास गिरी, सफेद के दाहिने बाहरी प्रभाव पर "शोल्डर हिट"।


37वीं चाल: पांचवीं लाइन शोल्डर हिट

यह चाल कहां थी?

ABCDEFGHJKLMNOPQRST
19
18
17
16+++
153737वीं चाल
14
13
12

37वीं चाल K15 (या J5, स्रोत के अनुसार निर्देशांक प्रणाली भिन्न होती है) स्थान पर खेली गई।

"शोल्डर हिट" क्या है?

"शोल्डर हिट" गो में एक तकनीकी चाल है, जिसमें प्रतिद्वंद्वी के पत्थर के पास तिरछे आना होता है। इसकी विशेषताएं हैं:

  • सीधा संपर्क नहीं: प्रतिद्वंद्वी के पत्थर से एक कदम की दूरी रखना
  • संरचना को तोड़ना: प्रतिद्वंद्वी के अपेक्षित विकास को बाधित करना
  • प्रतिक्रिया कठिन: चाहे प्रतिद्वंद्वी कुछ भी करे, कुछ न कुछ कीमत चुकानी होगी

पारंपरिक रूप से, शोल्डर हिट आमतौर पर तीसरी या चौथी लाइन पर खेली जाती है। पांचवीं लाइन शोल्डर हिट अत्यंत दुर्लभ है, क्योंकि:

  1. स्थान बहुत ऊंचा: पांचवीं लाइन केंद्र के करीब है, पारंपरिक रूप से कम कुशल माना जाता है
  2. आक्रमण में आसान: अकेला पत्थर प्रतिद्वंद्वी के आक्रमण का लक्ष्य बन सकता है
  3. मूल्य अस्पष्ट: किनारे-कोने जैसा स्पष्ट क्षेत्रीय मूल्य नहीं

🎬 C5: शोल्डर हिट की ज्यामितीय विशेषताएं


विशेषज्ञों की तत्काल प्रतिक्रिया

कमेंट्री रूम में सन्नाटा

37वीं चाल खेले जाने के क्षण, कमेंट्री रूम में थोड़ी देर के लिए सन्नाटा छा गया।

कोरियाई कमेंटेटर (किम सुंग-रयोंग 9-दान):

"यह...यह क्या है? यह चाल पांचवीं लाइन पर? मुझे समझ नहीं आया। यह गलती होनी चाहिए?"

चीनी कमेंटेटर (गु ली 9-दान):

"मुझे यह चाल समझ नहीं आई। अगर मेरा कोई छात्र ऐसा खेलता, तो मैं उसे कड़ी डांट लगाता।"

अमेरिकी कमेंटेटर (माइकल रेडमंड 9-दान):

"Very unusual move. I don't think any human would play this."

(बहुत असामान्य चाल। मुझे नहीं लगता कोई इंसान ऐसा खेलेगा।)

पेशेवर खिलाड़ियों की लाइव टिप्पणियां

विभिन्न लाइव प्लेटफॉर्म पर, पेशेवर खिलाड़ियों ने टिप्पणियां दीं:

के जी (तत्कालीन विश्व रैंकिंग नंबर एक):

"मैं इस चाल का इरादा नहीं समझ पा रहा। अगर AlphaGo जीता, तो मैं गंभीरता से अध्ययन करूंगा।"

पार्क जुंग-ह्वान (कोरिया के शीर्ष खिलाड़ी):

"यह चाल बहुत अजीब है। क्या प्रोग्राम में कोई समस्या है?"

मी यू-टिंग (चीन के विश्व चैंपियन):

"पांचवीं लाइन शोल्डर हिट? ऐसी चाल कभी नहीं देखी।"

🎬 C7: विशेषज्ञ अंतर्ज्ञान और AI मूल्यांकन के बीच अंतर

"दस हज़ार में एक की संभावना"

मैच के बाद, DeepMind टीम ने एक चौंकाने वाला आंकड़ा बताया:

"हमारे विश्लेषण के अनुसार, यदि कोई पेशेवर खिलाड़ी इसी स्थिति का सामना करता, तो 37वीं चाल के लिए इस स्थान को चुनने की संभावना लगभग दस हज़ार में एक होती।"

दूसरे शब्दों में, मानव गो ज्ञान प्रणाली में, यह चाल लगभग "अस्तित्वहीन" विकल्प था।


AI दृष्टिकोण से व्याख्या

Policy Network की संभाव्यता वितरण

आइए देखें AlphaGo का Policy Network इस स्थिति का मूल्यांकन कैसे करता है:

載入中...

उपरोक्त चित्र AlphaGo का प्रत्येक स्थान के लिए चाल संभाव्यता मूल्यांकन दिखाता है।

मुख्य अवलोकन:

  • 37वीं चाल का स्थान: लगभग 8% संभाव्यता, सबसे अधिक नहीं
  • पारंपरिक बिंदु (जैसे निचला दायां कोना): लगभग 12% संभाव्यता
  • अन्य उम्मीदवार स्थान: विभिन्न क्षेत्रों में फैले हुए

दिलचस्प बात यह है कि 37वीं चाल Policy Network के मूल्यांकन में सबसे अधिक संभाव्यता वाला विकल्प नहीं था। तो AlphaGo ने इसे क्यों चुना?

🎬 C9: Policy Network का आउटपुट वितरण

MCTS का गहन मूल्यांकन

उत्तर मोंटे कार्लो ट्री सर्च (MCTS) में है।

Policy Network केवल "अंतर्ज्ञान" प्रदान करता है, वास्तविक निर्णय MCTS के गहन सिमुलेशन से आता है। AlphaGo निर्णय लेने से पहले, हज़ारों संभावित भविष्य के परिदृश्यों का अनुकरण करता है।

37वीं चाल के लिए, MCTS मूल्यांकन प्रक्रिया इस प्रकार थी:

स्थान K15 (37वीं चाल):
├── सिमुलेशन 1: काला जीता (+0.3)
├── सिमुलेशन 2: काला जीता (+0.5)
├── सिमुलेशन 3: काला जीता (+0.2)
├── ...
└── औसत जीत दर: 58%

स्थान R3 (निचला दायां कोना अप्रोच):
├── सिमुलेशन 1: काला जीता (+0.1)
├── सिमुलेशन 2: सफेद जीता (-0.2)
├── सिमुलेशन 3: काला जीता (+0.2)
├── ...
└── औसत जीत दर: 52%

हालांकि निचले दाएं कोने की "अंतर्ज्ञान संभाव्यता" अधिक थी, गहन सिमुलेशन के बाद, 37वीं चाल की अपेक्षित जीत दर अधिक थी।

🎬 C11: MCTS कैसे Policy Network के निर्णय को सुधारता है

Value Network का समग्र मूल्यांकन

Value Network ने वैश्विक दृष्टिकोण से 37वीं चाल के मूल्य का मूल्यांकन किया:

37वीं चाल से पहले जीत दर: लगभग 52% (काला थोड़ा आगे)

37वीं चाल के बाद जीत दर: लगभग 58% (काला स्पष्ट रूप से आगे)

इसका मतलब है कि 37वीं चाल ने AlphaGo की अपेक्षित जीत दर को 6 प्रतिशत अंक बढ़ा दिया।

यह वृद्धि गो में काफी महत्वपूर्ण है। आमतौर पर, एक अच्छी चाल 2-3% जीत दर वृद्धि ला सके तो बहुत अच्छा माना जाता है।

🎬 C13: Value Network का वृद्धिशील मूल्यांकन


शतरंज सिद्धांत विश्लेषण: पांचवीं लाइन शोल्डर हिट क्यों?

स्थानीय दृष्टिकोण से

सतह पर, 37वीं चाल बहुत अकुशल लगती है:

  • स्थान बहुत ऊंचा: पांचवीं लाइन चौथी या तीसरी लाइन से केंद्र के अधिक करीब है
  • कोई क्षेत्र नहीं: किनारे-कोने की तरह सीधे क्षेत्र नहीं घेर सकती
  • आक्रमण में आसान: अकेला पत्थर सफेद द्वारा आक्रमित हो सकता है

लेकिन यदि हम ध्यान से विश्लेषण करें, इस चाल के कई सूक्ष्म लाभ हैं:

  1. सफेद के बाहरी प्रभाव को तोड़ना: सफेद ने मूल रूप से दाईं ओर विकास की योजना बनाई थी, 37वीं चाल ने इस योजना को बाधित किया
  2. अपना प्रभाव स्थापित करना: यह चाल क्षेत्र नहीं घेरती, लेकिन केंद्र में उपस्थिति स्थापित करती है
  3. जटिलता बढ़ाना: जटिल स्थिति बनाई, जो बेहतर गणना क्षमता वाले पक्ष के लिए फायदेमंद है

वैश्विक दृष्टिकोण से

इस चाल का वास्तविक मूल्य वैश्विक दृष्टिकोण से समझना होगा:

मोटाई और क्षेत्र का संतुलन

पारंपरिक गो सिद्धांत कहता है "कोने सोना, किनारे चांदी, केंद्र घास" — कोने सबसे मूल्यवान, केंद्र सबसे कम। लेकिन 37वीं चाल ने इस धारणा को चुनौती दी।

AlphaGo के मूल्यांकन से पता चला: इस विशेष स्थिति में, केंद्र का प्रभाव किनारे-कोने के क्षेत्र से अधिक मूल्यवान है

इसका कारण:

  • काले के पास पहले से पर्याप्त क्षेत्रीय आधार था
  • सफेद का दायां बाहरी प्रभाव यदि विकसित होता तो बहुत मजबूत होता
  • सफेद को रोकना अपना विस्तार करने से अधिक महत्वपूर्ण था

🎬 C15: वैश्विक मूल्य फ़ंक्शन की गणना

"सेंटे" (पहल) का मूल्य

37वीं चाल का एक कम आंका गया लाभ: इसने "सेंटे" (पहल) बनाए रखी।

गो में, "सेंटे" का अर्थ है पहल पर नियंत्रण। 37वीं चाल के बाद, सफेद को प्रतिक्रिया देनी पड़ी, जिससे काला खेल की दिशा को निर्देशित करता रहा।

यदि काला "सामान्य" निचले दाएं कोने का अप्रोच चुनता, दोनों पक्ष कोने में जोसेकी (मानक अनुक्रम) खेलते, फिर स्थिति संतुलित हो जाती। लेकिन 37वीं चाल ने इस संतुलन को तोड़ दिया, स्थिति को अनिश्चितता से भर दिया — और यही वह था जिसमें AlphaGo माहिर था।

ली सेडोल की दुविधा

37वीं चाल के बाद, ली सेडोल ने लंबे समय तक सोचा। उनकी दुविधा थी:

यदि सीधे प्रतिक्रिया दी (जैसे कूदना या उड़ना):

  • 37वीं चाल के मूल्य को स्वीकार करने के समान
  • काले को सफेद के बाहरी प्रभाव को तोड़ने का उद्देश्य प्राप्त होता

यदि अनदेखा किया:

  • काला केंद्र में और विकसित हो सकता था
  • सफेद का दायां बाहरी प्रभाव क्षेत्र में बदलना कठिन होता

अंत में, ली सेडोल ने प्रतिक्रिया देना चुना। लेकिन चाहे उन्होंने कुछ भी चुना हो, 37वीं चाल ने अपना उद्देश्य पूरा कर लिया था।

🎬 C17: गेम थ्योरी में बाध्यकारी विकल्प


आगे का विकास: 37वीं चाल से जीत तक

मध्य खेल का विकास

37वीं चाल के बाद, खेल जटिल मध्य खेल की लड़ाई में प्रवेश कर गया।

मुख्य प्रगति:

  • चाल 40-50: दोनों पक्षों ने दाईं ओर तीव्र संपर्क युद्ध किया
  • चाल 50-70: AlphaGo ने 37वीं चाल से स्थापित प्रभाव का उपयोग करके केंद्र में लाभ प्राप्त किया
  • चाल 70-100: काले ने धीरे-धीरे लाभ को क्षेत्र में बदला

लगभग 100वीं चाल तक, AlphaGo की बढ़त काफी स्पष्ट थी। ली सेडोल ने जवाबी हमला करने की कोशिश की, लेकिन स्थिति को पलट नहीं सके।

अंतिम परिणाम

AlphaGo की मध्य खेल में जीत

इस मैच की जीत का श्रेय 37वीं चाल को जाता है। मैच के बाद के विश्लेषण से पता चला कि यदि 37वीं चाल नहीं होती, तो स्थिति अधिक बराबर होती, सफेद को भी लाभ मिल सकता था।

🎬 C19: एक चाल कैसे पूरे खेल की दिशा बदल देती है


गो सिद्धांत पर प्रभाव

नए जोसेकी का जन्म

37वीं चाल ने गो समुदाय में "शोल्डर हिट" तकनीक पर पुनर्विचार को प्रेरित किया।

पारंपरिक दृष्टिकोण:

  • शोल्डर हिट तीसरी या चौथी लाइन पर होनी चाहिए
  • पांचवीं लाइन शोल्डर हिट बहुत अकुशल है
  • अकेले पत्थर आक्रमित होने में आसान हैं

AlphaGo के बाद:

  • पांचवीं लाइन शोल्डर हिट विशेष स्थितियों में सर्वश्रेष्ठ विकल्प है
  • स्थान की "ऊंचाई-नीचाई" से ज्यादा "प्रभाव" महत्वपूर्ण है
  • प्रत्येक चाल के मूल्य का वैश्विक दृष्टिकोण से मूल्यांकन जरूरी है

मानव खिलाड़ियों की सीख

37वीं चाल के बाद, कई पेशेवर खिलाड़ियों ने समान चालें आजमाना शुरू किया:

के जी ने 2017 में कई मैचों में पांचवीं लाइन शोल्डर हिट का उपयोग किया और सफलता पाई:

"AlphaGo ने मुझे सिखाया कि जिन चालों को हम 'खराब' मानते हैं, वे वास्तव में वे हैं जो हम समझते नहीं।"

पार्क जुंग-ह्वान ने भी अपने मैचों में इस सोच को अपनाया:

"महत्वपूर्ण यह नहीं कि 37वीं चाल का विशिष्ट स्थान याद रखें, बल्कि बोर्ड को नई नज़र से देखना सीखें।"

🎬 C21: AI कैसे मानव संज्ञान की सीमाओं का विस्तार करता है

गो AI प्रशिक्षण के लिए अंतर्दृष्टि

37वीं चाल का गो AI शोध पर भी गहरा प्रभाव पड़ा:

Policy Network पर पुनर्विचार:

Policy Network ने 37वीं चाल को कम संभाव्यता क्यों दी? क्योंकि इसने मानव खेल रिकॉर्ड से सीखा था, और मानव लगभग कभी ऐसी चाल नहीं खेलते।

इससे पता चलता है: केवल पर्यवेक्षित शिक्षण (मानवों से सीखना) पर्याप्त नहीं है। AI को स्व-अन्वेषण की जरूरत है, तभी वह मानव के अज्ञात अच्छी चालों को खोज सकता है।

यही कारण है कि बाद में AlphaGo Zero ने शुद्ध स्व-प्रतिस्पर्धा प्रशिक्षण अपनाया।

MCTS की पुष्टि:

37वीं चाल ने MCTS गहन खोज के मूल्य को साबित किया। भले ही अंतर्ज्ञान (Policy Network) किसी चाल को पसंद न करे, गहन विश्लेषण इसकी संभावित मूल्य खोज सकता है।

यह अंतर्दृष्टि बाद में कई अन्य क्षेत्रों में लागू हुई।


तकनीकी विवरण: 37वीं चाल की निर्णय प्रक्रिया का पुनर्निर्माण

Policy Network की इनपुट विशेषताएं

36वीं चाल के बाद, Policy Network की इनपुट में शामिल थे:

विशेषता परतविवरण
1-8काले पत्थरों की स्थिति (पिछली 8 चालें)
9-16सफेद पत्थरों की स्थिति (पिछली 8 चालें)
17अभी किसकी बारी है
18-48अन्य विशेषताएं (लिबर्टी, अटारी, आदि)

कुल 48 19x19 विशेषता परतें, इनपुट टेंसर बनाती हैं।

🎬 C23: AI गो में फीचर इंजीनियरिंग का महत्व

Policy Network का आउटपुट

Policy Network एक 19x19 = 361 आयामी संभाव्यता वितरण आउटपुट करता है।

37वीं चाल की स्थिति के लिए:

# शीर्ष 5 उम्मीदवार स्थान (सरलीकृत)
{
"R3": 0.12, # निचला दायां कोना अप्रोच
"Q17": 0.10, # ऊपरी दायां कोना
"C10": 0.09, # बायां बड़ा बिंदु
"K15": 0.08, # 37वीं चाल का स्थान
"D16": 0.07, # ऊपरी बायां कोना
# ... अन्य 356 स्थान
}

MCTS की अन्वेषण प्रक्रिया

AlphaGo अन्वेषण और उपयोग को संतुलित करने के लिए PUCT सूत्र का उपयोग करता है:

U(s,a) = Q(s,a) + c_puct × P(s,a) × sqrt(sum_b N(s,b)) / (1 + N(s,a))

जहां:

  • Q(s,a): स्थान a का औसत मूल्य
  • P(s,a): Policy Network द्वारा दी गई संभाव्यता
  • N(s,a): उस स्थान का अन्वेषण कितनी बार हुआ
  • c_puct: अन्वेषण स्थिरांक

37वीं चाल के लिए, हालांकि प्रारंभिक संभाव्यता P कम थी, कई सिमुलेशन के बाद, Q मान बढ़ता गया, अंततः अन्य उम्मीदवार स्थानों को पार कर गया।

🎬 C25: PUCT सूत्र कैसे गैर-सहज अच्छी चालें खोजता है

सिमुलेशन संख्या का प्रभाव

DeepMind टीम ने बाद में विश्लेषण किया कि 37वीं चाल की "खोज" के लिए पर्याप्त सिमुलेशन संख्या आवश्यक थी:

सिमुलेशन संख्यासर्वश्रेष्ठ विकल्प
100R3 (निचला दायां कोना)
1,000Q17 (ऊपरी दायां कोना)
10,000K15 (37वीं चाल)
100,000K15 (अधिक निश्चित)

इससे पता चलता है: गहन खोज उथली खोज से न मिल सकने वाली अच्छी चालें खोज सकती है


दार्शनिक विचार: मानव और AI की संज्ञानात्मक भिन्नता

मानव 37वीं चाल के बारे में क्यों नहीं सोच सके?

यह एक गहरा प्रश्न है। संभावित कारणों में शामिल हैं:

1. अनुभव की सीमाएं

मानव खिलाड़ियों का ज्ञान पूर्वजों के खेल रिकॉर्ड से आता है। यदि पूर्वजों ने कभी कोई चाल नहीं खेली, तो हम उस पर विचार नहीं करेंगे।

2. अंतर्ज्ञान का पूर्वाग्रह

मानव अंतर्ज्ञान उपयोगी है, लेकिन सीमित भी है। हमारा अंतर्ज्ञान हमें कुछ विकल्पों को "देखने नहीं देता"।

3. गणना क्षमता में अंतर

37वीं चाल का मूल्य गहन गणना से ही पता चल सकता था। मानव गणना क्षमता सीमित है, AI की तरह हज़ारों संभावनाओं का अनुकरण नहीं कर सकते।

🎬 C27: संज्ञानात्मक पूर्वाग्रह और AI का अतिक्रमण

मशीन का "अंतर्ज्ञान" क्या है?

क्या AlphaGo के पास "अंतर्ज्ञान" है?

एक अर्थ में, Policy Network AlphaGo का "अंतर्ज्ञान" है — यह मिलीसेकंड में प्रत्येक स्थान की क्षमता का मूल्यांकन कर सकता है।

लेकिन यह "अंतर्ज्ञान" मानव अंतर्ज्ञान से भिन्न है:

  • मानव अंतर्ज्ञान: अनुभव और पैटर्न पहचान से आता है
  • AI का अंतर्ज्ञान: बड़ी मात्रा में डेटा के सांख्यिकीय शिक्षण से आता है

दिलचस्प बात यह है कि 37वीं चाल ने साबित किया: AI का "अंतर्ज्ञान" MCTS द्वारा सुधारा जा सकता है। इसका मतलब है AI अपने अंतर्ज्ञान पर "पुनर्विचार" कर सकता है, बेहतर विकल्प खोज सकता है।

मानव AI से क्या सीख सकते हैं?

37वीं चाल का मानव खिलाड़ियों के लिए सबसे बड़ा संदेश शायद यह है:

अनुभव को बेड़ियां न बनने दें

कई "खराब" चालें, शायद वे हैं जो हम समझते नहीं। खुले दिमाग से, गैर-पारंपरिक चालों को आज़माने की इच्छा, नई संभावनाएं खोज सकती है।

यह संदेश न केवल गो पर लागू होता है, बल्कि जीवन के कई क्षेत्रों में भी।


एनिमेशन संदर्भ

इस लेख में शामिल मुख्य अवधारणाएं और एनिमेशन नंबर:

नंबरअवधारणाभौतिकी/गणित संबंध
🎬 C3पारंपरिक शतरंज सिद्धांत का मूल्य निर्णयह्यूरिस्टिक फ़ंक्शन
🎬 C5शोल्डर हिट की ज्यामितीय विशेषताएंस्थानिक संबंध
🎬 C7विशेषज्ञ अंतर्ज्ञान और AI मूल्यांकन का अंतरभविष्यवाणी त्रुटि
🎬 C9Policy Network का आउटपुट वितरणSoftmax संभाव्यता
🎬 C11MCTS कैसे Policy Network को सुधारता हैबेयेसियन अपडेट
🎬 C13Value Network का वृद्धिशील मूल्यांकनमूल्य फ़ंक्शन
🎬 C15वैश्विक मूल्य फ़ंक्शन की गणनासमाकलन अनुमान
🎬 C17गेम थ्योरी में बाध्यकारी विकल्पप्रभुत्व रणनीति
🎬 C19एक चाल पूरे खेल को कैसे बदलती हैद्विभाजन बिंदु
🎬 C21AI कैसे मानव संज्ञान का विस्तार करता हैखोज स्थान विस्तार
🎬 C23AI गो में फीचर इंजीनियरिंग का महत्वप्रतिनिधित्व शिक्षण
🎬 C25PUCT सूत्र कैसे गैर-सहज चालें खोजता हैअन्वेषण-उपयोग संतुलन
🎬 C27संज्ञानात्मक पूर्वाग्रह और AI का अतिक्रमणअनपक्षपाती अनुमान

आगे पढ़ें


इंटरैक्टिव अन्वेषण

Policy Network संभाव्यता वितरण

नीचे दिए गए इंटरैक्टिव विज़ुअलाइज़ेशन का उपयोग करके विभिन्न स्थितियों में Policy Network के आउटपुट का अन्वेषण करें:

載入中...

विभिन्न प्रीसेट स्थितियों को स्विच करके देखें कि AI प्रत्येक स्थान की चाल संभाव्यता का मूल्यांकन कैसे करता है।


संदर्भ सामग्री

  1. Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
  2. DeepMind Blog: "AlphaGo: The story so far"
  3. 《AlphaGo》 डॉक्यूमेंट्री (2017), निर्देशक Greg Kohs।
  4. ली सेडोल vs AlphaGo दूसरे मैच का आधिकारिक खेल रिकॉर्ड
  5. Go4Go.net पेशेवर खेल रिकॉर्ड विश्लेषण
  6. कोरियाई गो एसोसिएशन की मैच के बाद की तकनीकी रिपोर्ट