Ikhtisar AlphaGo Zero

Pada Oktober 2017, DeepMind mengumumkan hasil yang mengejutkan dunia AI: AlphaGo Zero tanpa menggunakan catatan permainan manusia sama sekali, mulai berlatih dari keadaan acak sepenuhnya, hanya dalam tiga hari melampaui AlphaGo original yang mengalahkan Lee Sedol, dan menang dengan skor 100:0.

Ini bukan sekadar kemajuan dalam angka. Ini mewakili paradigma baru: AI tidak membutuhkan pengetahuan manusia, bisa menemukan segalanya dari nol.

Mengapa Tidak Memerlukan Catatan Permainan Manusia?

Keterbatasan Catatan Permainan Manusia

Proses pelatihan AlphaGo original dibagi menjadi dua tahap:

Supervised Learning: Melatih Policy Network dengan 30 juta catatan permainan manusia
Reinforcement Learning: Meningkatkan lebih lanjut melalui self-play

Metode ini memiliki beberapa masalah fundamental:

1. Catatan Permainan Manusia Memiliki Batas Atas

Kekuatan bermain pemain manusia terbatas, catatan permainan berisi pemahaman manusia, juga termasuk kesalahan dan bias manusia. Ketika AI belajar dari catatan permainan manusia, yang dipelajarinya adalah:

Langkah yang menurut manusia bagus (tapi belum tentu optimal)
Pola berpikir manusia (tapi mungkin membatasi inovasi)
Kesalahan manusia (akan dipelajari sebagai sampel yang benar)

2. Bottleneck Supervised Learning

Tujuan supervised learning adalah "meniru manusia"—memprediksi langkah mana yang akan dimainkan pemain manusia. Ini berarti batas kemampuan AI dibatasi oleh kemampuan pemain manusia.

Seperti seorang murid yang hanya bisa meniru gurunya, tidak akan pernah bisa melampaui gurunya.

3. Biaya Pengumpulan Data

Catatan permainan manusia berkualitas tinggi membutuhkan waktu bertahun-tahun untuk dikumpulkan, dan hanya ada di game seperti Go yang memiliki sejarah panjang. Jika ingin menerapkan AI ke bidang baru (seperti prediksi struktur protein), tidak ada "catatan permainan ahli manusia" yang tersedia sama sekali.

Terobosan Zero

AlphaGo Zero sepenuhnya melewati tahap supervised learning, langsung memulai self-play dari inisialisasi acak. Ini menyelesaikan semua masalah di atas:

Masalah	AlphaGo Original	AlphaGo Zero
Batas pengetahuan manusia	Dibatasi kualitas catatan	Tidak ada batasan ini
Tujuan pembelajaran	Meniru manusia	Memaksimalkan win rate
Kebutuhan data	30 juta catatan	0
Kemampuan generalisasi	Hanya terbatas Go	Bisa digeneralisasi ke bidang lain

Ini adalah perubahan paradigma fundamental: dari "mempelajari pengetahuan manusia" ke "menemukan pengetahuan dari prinsip pertama".

Perbandingan dengan AlphaGo Original: 100:0

Kemenangan Telak

DeepMind membuat AlphaGo Zero yang sudah terlatih bertanding melawan berbagai versi AlphaGo:

Lawan	Rekor AlphaGo Zero
AlphaGo Fan (versi yang mengalahkan Fan Hui)	100:0
AlphaGo Lee (versi yang mengalahkan Lee Sedol)	100:0
AlphaGo Master (versi 60 kemenangan beruntun)	89:11

100:0—ini berarti dalam 100 pertandingan, AlphaGo original tidak bisa menang satu pun.

Lebih Sedikit Sumber Daya, Kekuatan Bermain Lebih Tinggi

Bukan hanya menang, AlphaGo Zero juga mencapai kekuatan bermain lebih tinggi dengan sumber daya lebih sedikit:

Metrik	AlphaGo Lee	AlphaGo Zero
Waktu pelatihan	Berbulan-bulan	40 hari (3 hari melampaui AlphaGo Lee)
Jumlah permainan pelatihan	30 juta catatan manusia + self-play	4.9 juta self-play
Jumlah TPU (pelatihan)	50+	4
Jumlah TPU (inferensi)	48	4
Fitur input	48 plane	17 plane
Neural network	Dual network SL + RL	Single dual-head network

Ini adalah peningkatan efisiensi yang menakjubkan: sumber daya berkurang 10 kali lipat atau lebih, kekuatan bermain justru meningkat signifikan.

Mengapa Zero Lebih Kuat?

Alasan AlphaGo Zero lebih kuat bisa dipahami dari beberapa sudut pandang:

1. Pembelajaran Tanpa Bias

AlphaGo original belajar dari catatan permainan manusia, mewarisi bias manusia. Misalnya, pemain manusia mungkin terlalu menekankan joseki tertentu, atau memiliki evaluasi yang salah pada posisi tertentu.

AlphaGo Zero tidak memiliki beban ini. Ia mulai dari kertas kosong, hanya belajar apa yang merupakan langkah bagus melalui hasil menang/kalah. Ini memungkinkannya menemukan langkah yang tidak pernah terpikirkan manusia.

2. Tujuan Pembelajaran yang Konsisten

Pelatihan AlphaGo original memiliki dua tujuan berbeda:

Supervised learning: Memaksimalkan akurasi prediksi langkah manusia
Reinforcement learning: Memaksimalkan win rate

Kedua tujuan ini mungkin saling bertentangan. AlphaGo Zero hanya memiliki satu tujuan: maksimalisasi win rate. Ini membuat proses pembelajaran lebih konsisten dan efektif.

3. Arsitektur yang Lebih Simpel

AlphaGo original menggunakan Policy Network dan Value Network yang terpisah. AlphaGo Zero menggunakan single dual-head network (lihat artikel berikutnya untuk detail), memungkinkan representasi fitur dibagi, meningkatkan efisiensi pembelajaran.

Fitur Input yang Disederhanakan: Dari 48 ke 17

48 Plane Fitur AlphaGo Original

Input neural network AlphaGo original berisi 48 plane fitur 19x19, mengkodekan banyak fitur yang dirancang manusia:

Kategori	Jumlah Fitur	Konten
Posisi batu	3	Batu hitam, batu putih, titik kosong
Jumlah liberty	8	String dengan 1-8 liberty
Capture	8	Bisa capture 1-8 batu
Ko	1	Posisi ko
Jarak dari tepi	4	Baris pertama sampai keempat
Legalitas langkah	1	Posisi mana yang bisa dimainkan
State historis	8	Posisi 8 langkah terakhir
Giliran	1	Hitam atau putih
Lainnya	14	Ladder, eye, dll.

48 fitur ini dirancang dengan cermat oleh ahli Go, berisi banyak domain knowledge.

17 Plane Fitur AlphaGo Zero

AlphaGo Zero sangat menyederhanakan input, hanya menggunakan 17 plane fitur:

Nomor Plane	Konten	Jumlah
1-8	Posisi batu hitam (8 langkah terakhir)	8
9-16	Posisi batu putih (8 langkah terakhir)	8
17	Giliran saat ini (semua 1 atau semua 0)	1

17 fitur ini hanya berisi:

State papan saat ini: Setiap posisi ada batu hitam, batu putih, atau kosong
Informasi historis: State papan 8 langkah terakhir
Informasi giliran: Giliran siapa bermain

Tidak ada jumlah liberty, tidak ada penilaian ladder, tidak ada jarak dari tepi—semua "pengetahuan Go" ini dibiarkan neural network mempelajarinya sendiri.

Mengapa Penyederhanaan Itu Bagus?

1. Biarkan Network Menemukan Fitur Sendiri

Fitur buatan tangan yang kompleks mungkin melewatkan informasi penting, atau mengkodekan asumsi yang salah. Membiarkan neural network belajar dari data mentah, ia mungkin menemukan representasi fitur yang lebih baik.

Faktanya terbukti, AlphaGo Zero mempelajari semua fitur yang dirancang manusia (jumlah liberty, ladder, dll.), dan juga mempelajari beberapa pola yang tidak disadari manusia secara eksplisit.

2. Kemampuan Generalisasi Lebih Baik

Banyak dari 48 fitur yang khusus untuk Go (seperti ladder, jarak dari tepi). 17 fitur yang disederhanakan bersifat universal—game papan apa pun bisa dikodekan dengan cara serupa.

Ini meletakkan dasar untuk AlphaZero (AI game universal) selanjutnya.

3. Mengurangi Kesalahan Buatan

Fitur yang dirancang manual mungkin berisi definisi yang salah atau tidak lengkap. Menyederhanakan input menghilangkan kemungkinan masalah semacam ini.

Arsitektur Network Tunggal

Desain Dual Network Original

AlphaGo original menggunakan dua neural network independen:

Policy Network:  Input → CNN → Probabilitas langkah 19x19
Value Network:   Input → CNN → Estimasi win rate (-1 sampai 1)

Kedua network ini:

Memiliki arsitektur berbeda (jumlah layer, channel sedikit berbeda)
Dilatih secara independen (latih Policy dulu, lalu Value)
Tidak berbagi parameter apa pun

Dual-Head Network Zero

AlphaGo Zero menggunakan network tunggal, tapi dengan dua output head:

Input → ResNet shared backbone → Policy Head → Probabilitas langkah 19x19
                               → Value Head  → Estimasi win rate

Kedua Head berbagi backbone ResNet yang sama (lihat artikel berikutnya: Dual-Head Network dan Residual Network untuk detail), ini membawa beberapa keuntungan:

1. Efisiensi Parameter

Shared backbone berarti sebagian besar parameter digunakan bersama oleh kedua tugas. Ini mengurangi total jumlah parameter, menurunkan risiko overfitting.

2. Berbagi Fitur

"Harus bermain di mana" (Policy) dan "siapa yang akan menang" (Value) membutuhkan pemahaman pola papan yang serupa. Shared backbone memungkinkan fitur-fitur ini dipelajari dan dimanfaatkan oleh kedua tugas secara bersamaan.

3. Stabilitas Pelatihan

Pelatihan joint membuat sinyal gradien berasal dari dua sumber, menyediakan sinyal supervisi yang lebih kaya, membuat pelatihan lebih stabil.

Kekuatan Residual Network

Backbone AlphaGo Zero menggunakan 40-layer Residual Network (ResNet), jauh lebih dalam dari 13-layer CNN AlphaGo original.

Residual connection (skip connections) memungkinkan deep network dilatih secara efektif, menghindari masalah vanishing gradient. Ini adalah teknologi terobosan dari kompetisi ImageNet 2015, berhasil diterapkan oleh AlphaGo Zero ke bidang Go.

Peningkatan Efisiensi Pelatihan

Pertumbuhan Eksponensial Self-Play

Proses pelatihan AlphaGo Zero menunjukkan efisiensi yang menakjubkan:

Waktu Pelatihan	Rating ELO	Setara dengan
0 jam	0	Bermain acak
3 jam	~1000	Menemukan aturan dasar
12 jam	~3000	Menemukan joseki
36 jam	~4500	Melampaui versi Fan Hui
60 jam	~5200	Melampaui versi Lee Sedol
72 jam	~5400	Melampaui AlphaGo original
40 hari	~5600	Versi terkuat

Tiga hari melampaui manusia, tiga hari melampaui AI yang sebelumnya dilatih berbulan-bulan—ini adalah peningkatan efisiensi eksponensial.

Mengapa Secepat Ini?

1. Panduan Pencarian yang Lebih Kuat

MCTS AlphaGo Zero sepenuhnya dipandu oleh neural network, tidak lagi menggunakan fast rollout policy. Ini membuat pencarian lebih efisien dan akurat.

2. Self-Play Lebih Cepat

Karena hanya membutuhkan satu network (bukan dua), biaya komputasi setiap self-play berkurang. Ini berarti lebih banyak data pelatihan bisa dihasilkan dalam waktu yang sama.

3. Pembelajaran Lebih Efektif

Pelatihan joint dual-head network membuat informasi setiap permainan dimanfaatkan lebih efektif. Gradien Policy dan Value saling memperkuat, mempercepat konvergensi.

Perbandingan dengan Pembelajaran Manusia

Berapa lama waktu yang dibutuhkan pemain manusia untuk mencapai level berbeda?

Level	Waktu yang Dibutuhkan Manusia	AlphaGo Zero
Pemula	Beberapa minggu	Beberapa menit
Amateur 1-dan	Beberapa tahun	Beberapa jam
Level profesional	10-20 tahun	1-2 hari
Juara dunia	20+ tahun dedikasi penuh	3 hari
Melampaui manusia	Tidak mungkin	3 hari

Perbandingan ini bukan untuk meremehkan pemain manusia—mereka menggunakan neuron biologis, sedangkan AlphaGo Zero menggunakan TPU yang dirancang khusus dan listrik beberapa ribu watt. Tapi ini memang menunjukkan betapa efisiennya metode pembelajaran yang tepat.

Universalitas: Catur, Shogi

Kelahiran AlphaZero

Pada Desember 2017, DeepMind mengumumkan AlphaZero—versi universal AlphaGo Zero. Algoritma yang sama, hanya perlu memodifikasi aturan permainan, bisa mencapai level dunia tertinggi di tiga permainan papan:

Permainan	Waktu Pelatihan	Lawan	Rekor
Go	8 jam	AlphaGo Zero	60:40
Catur	4 jam	Stockfish 8	28 menang 72 seri 0 kalah
Shogi	2 jam	Elmo	90:8:2

Perhatikan lawan-lawannya:

Stockfish adalah engine catur terkuat saat itu, menggunakan puluhan tahun pengetahuan manusia dan optimisasi
Elmo adalah AI shogi terkuat saat itu

AlphaZero dengan pelatihan beberapa jam, melampaui sistem khusus yang dikembangkan bertahun-tahun ini.

Makna Universalitas

AlphaGo Zero / AlphaZero membuktikan satu hal penting:

Algoritma pembelajaran yang sama, bisa mencapai level superhuman di berbagai domain.

Ini bukan tiga AI berbeda, tapi satu framework pembelajaran universal:

Self-play menghasilkan pengalaman
Monte Carlo Tree Search mengeksplorasi kemungkinan
Neural Network mempelajari fungsi policy dan value
Reinforcement Learning mengoptimalkan fungsi objektif

Framework ini tidak bergantung pada pengetahuan domain-specific, ini adalah langkah penting menuju AI yang lebih universal.

Dampak terhadap AI Tradisional

Sebelum AlphaZero, AI terkuat untuk catur dan shogi semuanya bergaya "expert system":

Banyak pengetahuan manusia: Opening book, endgame tablebase, fungsi evaluasi
Optimisasi puluhan tahun: Hasil kerja keras tak terhitung pemain dan engineer
Sangat terspesialisasi: Stockfish tidak bisa bermain Go, Elmo tidak bisa bermain catur

AlphaZero dengan satu algoritma universal melampaui semua ini dalam beberapa jam. Ini membuat banyak peneliti AI memikirkan ulang:

Haruskah kita menginvestasikan lebih banyak usaha pada "algoritma pembelajaran universal", atau "pengkodean pengetahuan expert"?

Jawabannya tampaknya semakin jelas: membiarkan mesin belajar sendiri, lebih efektif daripada mengajarinya pengetahuan.

Gaya Bermain AlphaGo Zero

Melampaui Estetika Manusia

Komunitas Go memiliki evaluasi umum terhadap langkah-langkah AlphaGo Zero: lebih indah.

Langkah-langkah AlphaGo Lee kadang terlihat "aneh"—seperti langkah ke-37, manusia perlu analisis setelahnya baru memahami keindahannya. Tapi langkah-langkah AlphaGo Zero sering dievaluasi sebagai "langsung terlihat sebagai langkah bagus" setelahnya.

Ini mungkin karena:

Kekuatan bermain lebih tinggi: Zero bisa melihat lebih dalam, langkah lebih tenang
Tanpa bias manusia: Tidak terikat oleh joseki tradisional
Tujuan yang konsisten: Hanya mengejar win rate, tidak meniru manusia

Menemukan Kembali Prinsip Go Manusia

Menariknya, AlphaGo Zero dalam proses pelatihan "menemukan kembali" pengetahuan Go yang diakumulasi manusia selama ribuan tahun:

Joseki: Zero menemukan sendiri banyak joseki umum, karena ini memang solusi optimal untuk kedua belah pihak
Prinsip opening: Urutan pentingnya sudut, sisi, tengah
Pengetahuan bentuk: Perbedaan antara bentuk buruk dan bentuk bagus

Ini memvalidasi rasionalitas prinsip Go manusia—pengetahuan ini bukan kebetulan, tapi refleksi dari esensi Go.

Inovasi Melampaui Manusia

Tapi Zero juga menemukan langkah yang tidak pernah terpikirkan manusia:

Opening non-konvensional: Variasi pada dasar opening tradisional
Korban agresif: Lebih bersedia daripada manusia untuk mengorbankan lokal demi keuntungan global
Bentuk counter-intuitif: Bentuk yang tampak "buruk" ternyata adalah solusi optimal

Inovasi-inovasi ini sedang mengubah pemahaman manusia tentang Go. Banyak pemain profesional mengatakan, mempelajari catatan permainan AlphaGo Zero memberi mereka pemahaman baru tentang Go.

Ringkasan Detail Teknis

Perbandingan Lengkap dengan AlphaGo Original

Aspek	AlphaGo (Original)	AlphaGo Zero
Data pelatihan	Catatan manusia + self-play	Self-play murni
Metode pembelajaran	Supervised learning + Reinforcement learning	Reinforcement learning murni
Fitur input	48 plane	17 plane
Arsitektur network	Policy/Value terpisah	Dual-head ResNet
Kedalaman network	13 layer	40 layer (atau lebih)
Evaluasi MCTS	Neural network + Rollout	Neural network murni
Jumlah pencarian	~100,000 per langkah	~1,600 per langkah
TPU pelatihan	50+	4
TPU inferensi	48	4 (bisa diperluas)

Algoritma Inti

Loop pelatihan AlphaGo Zero sangat simpel:

1. Self-play
   - Lakukan MCTS dengan network saat ini
   - Pilih langkah berdasarkan probabilitas pencarian MCTS
   - Catat setiap langkah (posisi, probabilitas MCTS, hasil menang/kalah)

2. Latih Network
   - Ambil sampel dari experience pool
   - Policy Head: Minimalkan cross-entropy dengan probabilitas MCTS
   - Value Head: Minimalkan mean squared error dengan hasil menang/kalah aktual
   - Optimalkan kedua tujuan secara joint

3. Update Network
   - Ganti network lama dengan network baru (verifikasi network baru lebih kuat melalui pertandingan)
   - Kembali ke langkah 1

Loop ini terus berjalan, network terus menjadi lebih kuat. Tanpa data manusia, tanpa pengetahuan manusia, hanya aturan permainan dan tujuan menang/kalah.

Implikasi untuk Penelitian AI

Pembelajaran Prinsip Pertama

AlphaGo Zero mendemonstrasikan metode pembelajaran "prinsip pertama":

Jangan beritahu AI cara melakukan, hanya beritahu apa tujuannya, biarkan ia menemukan caranya sendiri.

Ini membentuk kontras tajam dengan pendekatan expert system tradisional. Expert system mencoba mengkodekan pengetahuan manusia ke dalam AI, sedangkan AlphaGo Zero membiarkan AI menemukan pengetahuan sendiri.

Hasilnya: pengetahuan yang ditemukan AI mungkin lebih lengkap dan akurat daripada pengetahuan manusia.

Kekuatan Self-Play

AlphaGo Zero membuktikan self-play bisa menghasilkan data pelatihan tak terbatas, dan kualitas data ini akan meningkat seiring peningkatan network.

Ini adalah "siklus positif":

Network lebih kuat → Data self-play lebih baik
Data lebih baik → Network lebih kuat

Siklus ini bisa terus berjalan, sampai mencapai batas teori permainan (jika ada).

Pentingnya Penyederhanaan

Keberhasilan AlphaGo Zero membuktikan pentingnya "penyederhanaan":

Sederhanakan input (48 → 17)
Sederhanakan arsitektur (dual network → single network)
Sederhanakan pelatihan (supervised + reinforcement → reinforcement murni)

Setiap penyederhanaan membuat sistem lebih powerful. Ini memberitahu kita: kompleks tidak berarti bagus, solusi paling sederhana seringkali yang terbaik.

Korespondensi Animasi

Konsep inti yang dibahas dalam artikel ini dan nomor animasinya:

Nomor	Konsep	Korespondensi Fisika/Matematika
E5 E7	Pelatihan dari nol	Fenomena self-organization
E5 E5	Self-play	Konvergensi fixed-point
E5 E12	Kurva pertumbuhan kekuatan	Pertumbuhan S-shape
E5 D12	Residual network	Highway gradien

Bacaan Lanjutan

Artikel Berikutnya: Dual-Head Network dan Residual Network — Penjelasan detail arsitektur neural network AlphaGo Zero
Artikel Terkait: Self-Play — Mengapa self-play bisa menghasilkan level superhuman
Teknis Mendalam: Proses Pelatihan dari Nol — Evolusi detail Hari 0-3

Referensi

Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.

Mengapa Tidak Memerlukan Catatan Permainan Manusia?​

Keterbatasan Catatan Permainan Manusia​

1. Catatan Permainan Manusia Memiliki Batas Atas​

2. Bottleneck Supervised Learning​

3. Biaya Pengumpulan Data​

Terobosan Zero​

Perbandingan dengan AlphaGo Original: 100:0​

Kemenangan Telak​

Lebih Sedikit Sumber Daya, Kekuatan Bermain Lebih Tinggi​

Mengapa Zero Lebih Kuat?​

1. Pembelajaran Tanpa Bias​

2. Tujuan Pembelajaran yang Konsisten​

3. Arsitektur yang Lebih Simpel​

Fitur Input yang Disederhanakan: Dari 48 ke 17​

48 Plane Fitur AlphaGo Original​

17 Plane Fitur AlphaGo Zero​

Mengapa Penyederhanaan Itu Bagus?​

1. Biarkan Network Menemukan Fitur Sendiri​

2. Kemampuan Generalisasi Lebih Baik​

3. Mengurangi Kesalahan Buatan​

Arsitektur Network Tunggal​

Desain Dual Network Original​

Dual-Head Network Zero​

1. Efisiensi Parameter​

2. Berbagi Fitur​

3. Stabilitas Pelatihan​

Kekuatan Residual Network​

Peningkatan Efisiensi Pelatihan​

Pertumbuhan Eksponensial Self-Play​

Mengapa Secepat Ini?​

1. Panduan Pencarian yang Lebih Kuat​

2. Self-Play Lebih Cepat​

3. Pembelajaran Lebih Efektif​

Perbandingan dengan Pembelajaran Manusia​

Universalitas: Catur, Shogi​

Kelahiran AlphaZero​

Makna Universalitas​

Dampak terhadap AI Tradisional​

Gaya Bermain AlphaGo Zero​

Melampaui Estetika Manusia​

Menemukan Kembali Prinsip Go Manusia​

Inovasi Melampaui Manusia​

Ringkasan Detail Teknis​

Perbandingan Lengkap dengan AlphaGo Original​

Algoritma Inti​

Implikasi untuk Penelitian AI​

Pembelajaran Prinsip Pertama​

Kekuatan Self-Play​

Pentingnya Penyederhanaan​

Korespondensi Animasi​

Bacaan Lanjutan​

Referensi​