शून्य से प्रशिक्षण की प्रक्रिया
AlphaGo Zero की सबसे आश्चर्यजनक बात केवल इसकी अंतिम खेल शक्ति नहीं है, बल्कि इसकी विकास प्रक्रिया है—पूर्णतः यादृच्छिक स्थिति से शुरू करके, केवल तीन दिनों में मानव द्वारा हजारों वर्षों में संचित बाजी ज्ञान को पार कर गया, और फिर सभी मानव समझ से आगे निकल गया।
यह लेख आपको इस आश्चर्यजनक रूपांतरण प्रक्रिया का चरण-दर-चरण गवाह बनने में मार्गदर्शन करेगा।
प्रशिक्षण वक्र
सबसे पहले, आइए AlphaGo Zero की खेल शक्ति वृद्धि वक्र देखें:
यह वक्र 72 घंटों में AlphaGo Zero की खेल शक्ति में परिवर्तन दिखाती है। कुछ प्रमुख मील के पत्थरों पर ध्यान दें:
| समय | ELO रेटिंग | समतुल्य |
|---|---|---|
| 0 घंटा | 0 | यादृच्छिक चालें |
| 3 घंटे | ~1000 | बुनियादी नियमों की खोज |
| 12 घंटे | ~3000 | जोसेकी और आकृतियों की खोज |
| 36 घंटे | ~4500 | फैन हुई संस्करण AlphaGo को पार |
| 60 घंटे | ~5200 | ली सेदोल संस्करण AlphaGo को पार |
| 72 घंटे | ~5400 | सभी पिछले संस्करणों को पार |
तीन दिन, शून्य से मानव शिखर को पार करने तक।
दिन 0: अराजकता की शुरुआत
पूर्णतः यादृच्छिक प्रारंभिक अवस्था
प्रशिक्षण की शुरुआत में, न्यूरल नेटवर्क के भार यादृच्छिक रूप से आरंभ किए जाते हैं। इसका अर्थ है:
- पॉलिसी हेड: आउटपुट लगभग समान वितरण के करीब, प्रत्येक स्थान पर चाल की संभावना लगभग 1/361
- वैल्यू हेड: आउटपुट लगभग 0 के करीब, अच्छी और बुरी स्थितियों में अंतर करने में असमर्थ
इस समय AlphaGo Zero पूरी तरह से यादृच्छिक रूप से खेल रहा था—एक ऐसे व्यक्ति से भी बदतर जिसने कभी बोर्ड नहीं देखा।
पहला स्व-खेल मुकाबला
कल्पना करें कि पहला स्व-खेल मुकाबला कैसा रहा होगा:
काला 1: कहीं यादृच्छिक रूप से (शायद तेनगेन, शायद कोने में, शायद पहली पंक्ति पर)
सफेद 2: कहीं और यादृच्छिक रूप से
काला 3: यादृच्छिक...
...
200वीं चाल: बोर्ड पर हर जगह अलग-थलग पत्थर, कोई कनेक्शन नहीं
अंत में: जीत-हार यादृच्छिक कारकों द्वारा निर्धारित
इस खेल की "गुणवत्ता" बेहद खराब थी, लेकिन इसमें मूल्यवान जानकारी थी: अंत में कौन जीता।
पहला प्रशिक्षण संकेत
हालांकि दोनों पक्ष यादृच्छिक रूप से खेल रहे थे, जीत-हार का परिणाम निश्चित था। न्यूरल नेटवर्क ने सीखना शुरू किया:
"इस स्थिति में, अंततः काला जीता। हालांकि मुझे नहीं पता क्यों, लेकिन यह स्थिति शायद काले के लिए बेहतर है।"
यह एक बहुत कमजोर संकेत है, लेकिन यह वास्तविक है। हजारों ऐसे "कचरा खेलों" के बाद, नेटवर्क ने कुछ सांख्यिकीय पैटर्न खोजने शुरू किए।
घंटा 1-3: खेल के नियमों की खोज
उभरती नियम जागरूकता
दसियों हजार स्व-खेल मुकाबलों के बाद, AlphaGo Zero ने बाजी के बुनियादी नियमों को "खोजना" शुरू किया (हालांकि ये नियम पहले से ही गेम इंजन में अंतर्निहित थे):
1. कनेक्शन का महत्व
अवलोकन: जब पत्थर जुड़े होते हैं, तो उन्हें पकड़ना कठिन होता है
सीखना: पहले से मौजूद पत्थरों के पास चाल लगाना प्राथमिकता बन गई
यह सिखाया नहीं गया था, बल्कि जीत-हार के परिणामों से सीखा गया था। बिखरे पत्थरों को एक-एक करके हराना आसान है, जबकि जुड़े पत्थर जीवित रहने की अधिक संभावना रखते हैं।
2. लिबर्टी की अवधारणा
अवलोकन: जब पत्थरों के आसपास की सभी खाली जगहें घेर ली जाती हैं, पत्थर गायब हो जाते हैं
सीखना: कम लिबर्टी वाली स्थितियों से बचना शुरू, विरोधी के कम लिबर्टी वाले पत्थरों पर हमला करना शुरू
नेटवर्क ने लिबर्टी गिनना सीख लिया—हालांकि इनपुट में कोई स्पष्ट "लिबर्टी संख्या" विशेषता नहीं थी, लेकिन ऐतिहासिक बोर्ड स्थितियों से इसे अनुमान लगाया जा सकता था।
3. आंख की प्रारंभिक अवधारणा
अवलोकन: कुछ आकृतियों को पकड़ना विशेष रूप से कठिन है
सीखना: कोनों और किनारों पर आंतरिक स्थान वाली आकृतियां बनाना शुरू
यह जीवित समूह की अवधारणा का अंकुर है। नेटवर्क ने पाया कि आंतरिक स्थान वाले पत्थर समूहों के जीवित रहने की अधिक संभावना है।
खेल शक्ति मूल्यांकन
इस समय AlphaGo Zero लगभग था:
- ELO: ~1000
- समतुल्य: नियम सीखने वाला शुरुआती खिलाड़ी
- विशेषताएं: पत्थरों को जोड़ना जानता है, विरोधी के पत्थर पकड़ना जानता है
घंटा 3-12: जोसेकी और आकृतियों की खोज
कोनों का जागरण
अधिक प्रशिक्षण के बाद, नेटवर्क ने कोनों के महत्व की खोज की:
अवलोकन: कोने के पत्थरों को जीवित रहने के लिए केवल 2 आंखों की आवश्यकता
किनारे पर 2 आंखें बनाना कठिन
केंद्र में 2 आंखें बनाना सबसे कठिन
सीखना: खेल की शुरुआत में कोनों को प्राथमिकता
यह मानव बाजी सिद्धांत में "स्वर्ण कोना, चांदी किनारा, घास का पेट" की खोज प्रक्रिया है। नेटवर्क को यह सिद्धांत नहीं बताया गया था, बल्कि इसने लाखों मुकाबलों से स्वयं खोजा।
जोसेकी का उद्भव
और भी आश्चर्यजनक बात यह है कि नेटवर्क ने जोसेकी "आविष्कार" करना शुरू किया—कोने में दोनों पक्षों की मानक चालें:
देखी गई घटना
प्रशिक्षण प्रारंभ: कोने में विभिन्न प्रकार की चालें
प्रशिक्षण मध्य: कुछ चालें बार-बार दिखाई देना
प्रशिक्षण अंत: स्थिर कोना जोसेकी का गठन
ये जोसेकी मानव द्वारा सैकड़ों वर्षों में संचित जोसेकी के अत्यधिक समान थे, जो पुष्टि करता है कि ये जोसेकी वास्तव में दोनों पक्षों के इष्टतम समाधान के करीब हैं।
विशिष्ट उभरी जोसेकी
कोमोकू जोसेकी का उदाहरण:
A B C D E F G H J
9 . . . . . . . . .
8 . . . . . . . . .
7 . . . . . . . . .
6 . . . ● . . . . . ● = काला
5 . . . . . . . . . ○ = सफेद
4 . . . ○ . ● . . .
3 . . . . . . . . .
2 . . . . . . . . .
1 . . . . . . . . .
काला कोमोकू पर कब्जा, सफेद ने कोने पर हमला, काले ने घेराव—यह क्रम प्रशिक्षण प्रक्रिया में स्वाभाविक रूप से उभरा।
आकृति ज्ञान
जोसेकी के अलावा, नेटवर्क ने अच्छी और बुरी आकृतियों के बीच अंतर भी सीखा:
| आकृति | मानव मूल्यांकन | Zero की सीख |
|---|---|---|
| खाली त्रिकोण | मूर्ख आकृति | धीरे-धीरे टालना |
| बाघ का मुंह | अच्छी आकृति | धीरे-धीरे पसंद करना |
| दोहरी उड़ती चिड़िया | क्लासिक हमला आकृति | स्वाभाविक खोज |
| सिर पर दबाव | शक्तिशाली हमला | स्वाभाविक खोज |
खेल शक्ति मूल्यांकन
इस समय AlphaGo Zero:
- ELO: ~3000
- समतुल्य: एमेच्योर उच्च दान
- विशेषताएं: बुनियादी जोसेकी ज्ञान, बुनियादी आकृतियों की समझ
घंटा 12-36: बाजी सिद्धांत की परिपक्वता
वैश्विक दृष्टिकोण का निर्माण
दूसरे दिन में प्रवेश करते हुए, नेटवर्क ने वैश्विक दृष्टिकोण प्रदर्शित करना शुरू किया:
प्रभाव और क्षेत्र
अवलोकन: क्षेत्र घेरने से अंक मिलते हैं
लेकिन प्रभाव का भी मूल्य है—इससे विरोधी पर हमला किया जा सकता है
सीखना: क्षेत्र और प्रभाव के बीच संतुलन खोजना
यह बाजी में सबसे गहन अवधारणाओं में से एक है। नेटवर्क ने "आभासी" और "वास्तविक" के मूल्य का मूल्यांकन करना सीखा।
मोटाई-पतलेपन का निर्णय
अवलोकन: "मोटे" पत्थर दूर की लड़ाई का समर्थन कर सकते हैं
"पतले" पत्थरों को मजबूती की आवश्यकता, अन्यथा हमला होगा
सीखना: सक्रिय रूप से मोटाई बनाना, विरोधी की कमजोरियों पर हमला करना
मध्य-खेल रणनीति
नेटवर्क की मध्य-खेल लड़ाई क्षमता में उल्लेखनीय सुधार:
| तकनीक | विवरण |
|---|---|
| कमजोर पत्थरों पर हमला | विरोधी के अकेले पत्थरों की पहचान, हमला शुरू |
| मोटाई का उपयोग | मोटाई से हमले का समर्थन, लाभ प्राप्त |
| परिवर्तन | स्थानीय हानि छोड़कर, वैश्विक लाभ के लिए |
| घुसपैठ | विरोधी के मोयो में प्रवेश |
एंडगेम तकनीक
एंडगेम चरण की सटीक गणना में भी सुधार:
अवलोकन: एंडगेम चरण में प्रत्येक चाल का मूल्य सटीक रूप से गणना योग्य
सीखना: मूल्य के क्रम में एंडगेम खेलना
नेटवर्क ने "दोनों पक्षों की पहली चाल" "एक पक्षीय पहली चाल" "बाद की चाल" जैसी एंडगेम अवधारणाएं सीख लीं।
खेल शक्ति मूल्यांकन
इस समय AlphaGo Zero:
- ELO: ~4500
- समतुल्य: पेशेवर खिलाड़ी स्तर
- विशेषताएं: बाजी की पूर्ण समझ, उच्च गुणवत्ता के मुकाबले खेलने में सक्षम
घंटा 36-72: मानव से परे
पेशेवर स्तर को पार करना
लगभग 36 घंटों में, AlphaGo Zero की खेल शक्ति पेशेवर खिलाड़ी स्तर तक पहुंच गई। लेकिन प्रशिक्षण नहीं रुका—इसने स्व-खेल जारी रखा, सुधार जारी रखा।
इसके बाद जो हुआ वह और भी दिलचस्प है: इसने वे चालें खोजना शुरू कीं जिनके बारे में मानव ने कभी नहीं सोचा था।
क्रांतिकारी शुरुआती खेल
पारंपरिक बाजी शुरुआती खेल में कई "स्थापित विचार" हैं:
| पारंपरिक दृष्टिकोण | AlphaGo Zero की खोज |
|---|---|
| खेल की शुरुआत में पहले कोना | कुछ मामलों में पहले किनारा बेहतर |
| कोमोकू सबसे स्थिर | सीधे 3-3 पर कब्जा संभव |
| जोसेकी का कड़ाई से पालन | सक्रिय रूप से जोसेकी से विचलन संभव |
| बहुत जल्दी 3-3 में प्रवेश लालची | कुछ स्थितियों में 3-3 में प्रवेश सही |
ये "खोजें" AlphaGo के बाद मानव पेशेवर खिलाड़ियों द्वारा व्यापक रूप से अध्ययन की गईं, और कई आधुनिक बाजी सिद्धांत में शामिल हो गईं।
प्रति-सहज आकृतियां
AlphaGo Zero कभी-कभी ऐसी आकृतियां खेलता था जिन्हें मानव "बदसूरत" मानते थे:
मानव: "यह मूर्ख आकृति है, अच्छी चाल नहीं हो सकती"
Zero: (वह चाल खेली)
विश्लेषण के बाद: "यह वास्तव में अधिक कुशल है"
इसने मानव बाजी सिद्धांत की सीमाओं को उजागर किया: कुछ "बुरी आकृतियां" वास्तव में विशेष स्थितियों में इष्टतम समाधान हैं।
आक्रामक त्याग
Zero मानव की तुलना में अन्य लाभों के लिए पत्थर त्यागने के लिए अधिक तैयार था:
स्थानीय हानि 3 अंक
वैश्विक पहल प्राप्त
अंतिम जीत दर में वृद्धि
मानव खिलाड़ी अक्सर स्थानीय लाभ-हानि के प्रति अत्यधिक चिंतित रहते हैं, जबकि Zero हमेशा अंतिम जीत दर पर ध्यान केंद्रित रखता है।
खेल शक्ति मूल्यांकन
72 घंटों के बाद AlphaGo Zero:
- ELO: ~5400
- समतुल्य: सभी मानव खिलाड़ियों से परे
- विशेषताएं: मानव द्वारा अज्ञात चालों की खोज, नए बाजी सिद्धांत का निर्माण
मानव बाजी सिद्धांत की पुन: खोज
हजारों वर्ष बनाम तीन दिन
मानव बाजी हजारों वर्षों में विकसित हुई:
- लगभग 2000 ईसा पूर्व चीन में उत्पत्ति
- तांग राजवंश में जापान पहुंची, सटीक सिद्धांत विकसित हुए
- 20वीं सदी में पेशेवर प्रणाली प्रकट, सिद्धांत और गहरे हुए
- 2016 में, मानव मानता था कि बाजी की काफी समझ हो गई
AlphaGo Zero ने तीन दिनों में यह यात्रा पूरी की। और भी आश्चर्यजनक, इसके द्वारा खोजे गए सिद्धांत मानव के अत्यधिक समान थे।
सत्यापन और उत्कृष्टता
| मानव ज्ञान | Zero का रवैया |
|---|---|
| स्वर्ण कोना चांदी किनारा घास का पेट | पुष्टि (कोना वास्तव में महत्वपूर्ण) |
| बुनियादी जोसेकी | अधिकांश पुष्टि, कुछ में सुधार |
| अच्छी-बुरी आकृति | अधिकांश पुष्टि, अपवाद मौजूद |
| त्याग परिवर्तन | मानव से अधिक आक्रामक |
| मोटाई-पतलापन निर्णय | मोटे तौर पर एक जैसा, विवरण में अंतर |
इससे पता चलता है कि मानव द्वारा हजारों वर्षों में संचित बाजी सिद्धांत बड़े पैमाने पर सही है। लेकिन कुछ क्षेत्रों में, मानव समझ को संशोधन की आवश्यकता है।
मानव सीखने के लिए प्रेरणा
AlphaGo Zero की प्रशिक्षण प्रक्रिया मानव सीखने के लिए प्रेरणा प्रदान करती है:
- बुनियाद से शुरू: Zero ने पहले नियम सीखे, फिर आकृतियां, अंत में वैश्विक दृष्टिकोण विकसित किया
- बड़े पैमाने पर अभ्यास: 4.9 मिलियन स्व-खेल मुकाबले दसियों हजार वर्षों के मानव मुकाबलों के बराबर
- जीत पर ध्यान: "सुंदर बाजी" का पीछा नहीं, केवल जीतने का पीछा
- परंपरा से मुक्त: "असंभव" चालें आजमाने का साहस
प्रशिक्षण प्रक्रिया का तकनीकी विवरण
स्व-खेल तंत्र
प्रत्येक स्व-खेल मुकाबले का प्रवाह:
आरंभीकरण: खाली बोर्ड
↓
प्रत्येक चाल:
1. न्यूरल नेटवर्क से वर्तमान स्थिति का मूल्यांकन
2. MCTS खोज निष्पादन (1600 सिमुलेशन)
3. खोज परिणाम के आधार पर चाल चयन
4. (स्थिति, MCTS संभावना, -) रिकॉर्ड करें
↓
खेल समाप्ति:
1. जीत-हार निर्धारण z ∈ {-1, +1}
2. सभी रिकॉर्ड में जीत-हार जोड़ें (स्थिति, MCTS संभावना, z)
3. प्रशिक्षण पूल में डेटा जोड़ें
प्रशिक्षण की गति
AlphaGo Zero का प्रशिक्षण निरंतर चलता है:
Self-play Workers: निरंतर स्व-खेल डेटा उत्पन्न
Training Workers: निरंतर डेटा पूल से नमूना लेकर प्रशिक्षण
Network Updates: नियमित रूप से स्व-खेल के लिए नेटवर्क अपडेट
ये तीन प्रक्रियाएं एक साथ चलती हैं, निरंतर सुधार का चक्र बनाती हैं।
डेटा पूल प्रबंधन
प्रशिक्षण डेटा पूल का प्रबंधन:
| पैरामीटर | मान |
|---|---|
| पूल आकार | हाल के 500,000 मुकाबले |
| प्रति मुकाबला नमूने | ~200 चालें |
| कुल नमूने | ~100 मिलियन |
| नमूना विधि | समान यादृच्छिक |
पुराना डेटा नए डेटा द्वारा प्रतिस्थापित होता है, यह सुनिश्चित करते हुए कि प्रशिक्षण डेटा वर्तमान नेटवर्क के स्तर को दर्शाता है।
नेटवर्क अपडेट रणनीति
प्रत्येक प्रशिक्षण चरण के बाद स्व-खेल नेटवर्क अपडेट नहीं होता। बल्कि:
- कुछ समय प्रशिक्षण के बाद, उम्मीदवार नेटवर्क उत्पन्न
- उम्मीदवार नेटवर्क को वर्तमान नेटवर्क के खिलाफ खेलाएं (400 मुकाबले)
- यदि उम्मीदवार नेटवर्क की जीत दर > 55%, अपडेट करें
- अन्यथा प्रशिक्षण जारी रखें
इससे सुनिश्चित होता है कि स्व-खेल हमेशा पर्याप्त मजबूत नेटवर्क का उपयोग करता है।
सीखने की गति का विश्लेषण
इतना तेज़ क्यों?
AlphaGo Zero की आश्चर्यजनक सीखने की गति के कारण:
1. कम्प्यूटेशनल संसाधन
- 4 TPU, प्रति सेकंड दसियों हजार अनुमान
- प्रतिदिन लाखों स्व-खेल मुकाबले उत्पन्न
- मानव के हजारों वर्षों के मुकाबलों के बराबर
2. सही प्रतिद्वंद्वी
स्व-खेल का अर्थ है:
- प्रतिद्वंद्वी का स्तर हमेशा स्वयं के बराबर
- न बहुत कमजोर (कुछ नहीं सीखेंगे) न बहुत मजबूत (जीत नहीं सकते)
- यह आदर्श सीखने की स्थिति है
3. सीधा लक्ष्य
केवल एक लक्ष्य: जीतना। कोई नहीं:
- शिक्षक की प्राथमिकताएं
- शैली का पीछा
- सौंदर्य विचार
4. कुशल प्रतिनिधित्व सीखना
रेसिड्युअल नेटवर्क बहुत अमूर्त बोर्ड विशेषताएं सीख सकता है, हाथ से डिज़ाइन की गई विशेषताओं से अधिक प्रभावी।
मानव से तुलना
| पहलू | मानव | AlphaGo Zero |
|---|---|---|
| सीखने की गति | प्रतिदिन ~10 मुकाबले | प्रतिदिन ~100,000 मुकाबले |
| स्मृति संरक्षण | भूलने की समस्या | पूर्ण संरक्षण |
| ऊर्जा सीमा | आराम की आवश्यकता | 24/7 चालू |
| नवाचार क्षमता | परंपरा से प्रभावित | कोई पूर्व-निर्धारित सीमा नहीं |
प्रशिक्षण प्रक्रिया में रोचक घटनाएं
चरणबद्ध ठहराव
प्रशिक्षण वक्र पूरी तरह सुचारू नहीं है, कभी-कभी ठहराव अवधि दिखाई देती है:
ELO: 2000 -----> 2000 -----> 2500 ---->
(ठहराव) (सफलता)
यह शायद इसलिए है क्योंकि नेटवर्क किसी नई अवधारणा को सीख रहा है, "पचाने" में समय लगता है।
रणनीतियों का उद्भव और विलुप्ति
कुछ रणनीतियां प्रशिक्षण प्रक्रिया में उभरती हैं, फिर गायब हो जाती हैं:
चरण 1: किसी हमले की विधि की खोज
चरण 2: प्रतिद्वंद्वी ने बचाव सीख लिया
चरण 3: उस विधि का उपयोग कम हो गया
चरण 4: नई हमले की विधि की खोज
यह हथियारों की दौड़ का लघु रूप है।
"पहिये का पुनः आविष्कार"
प्रशिक्षण प्रक्रिया में, Zero मानव द्वारा ज्ञात अवधारणाओं को "पुनः आविष्कार" करता है:
- लैडर (शिचो): निरंतर अतारी से पत्थर पकड़ने की खोज
- स्नैपबैक: पहले पत्थर देकर फिर पलटवार की खोज
- को: नियम बचाव के उपयोग की खोज
इन खोजों का क्रम मानव के बाजी सीखने के क्रम के समान है।
एनिमेशन संदर्भ
इस लेख में शामिल मुख्य अवधारणाएं और एनिमेशन संख्या:
| संख्या | अवधारणा | भौतिकी/गणित समतुल्य |
|---|---|---|
| 🎬 E12 | खेल शक्ति वृद्धि वक्र | S-आकार वृद्धि (लॉजिस्टिक) |
| 🎬 E7 | शून्य से शुरू | स्व-संगठन घटना |
| 🎬 E5 | स्व-खेल | स्थिर बिंदु अभिसरण |
| 🎬 F8 | उभरती क्षमताएं | चरण संक्रमण |
आगे पढ़ें
- पिछला लेख: दोहरी-शीर्ष नेटवर्क और रेसिड्युअल नेटवर्क — यह सब समर्थन करने वाली न्यूरल नेटवर्क वास्तुकला
- अगला लेख: वितरित प्रणाली और TPU — यह सब संभव बनाने वाला हार्डवेयर
- संबंधित लेख: स्व-खेल — स्व-खेल इतना प्रभावी क्यों है
संदर्भ सामग्री
- Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
- Silver, D., et al. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
- DeepMind. (2017). "AlphaGo Zero: Learning from scratch." YouTube.
- Wang, F., et al. (2019). "A Survey on the Evolution of AlphaGo." arXiv:1907.11180.