Panduan Paper Kunci

Artikel ini merangkum paper paling penting dalam sejarah pengembangan AI Go, menyediakan ringkasan dan poin teknis untuk pemahaman cepat.

Paper milestone dalam sejarah pengembangan AI Go mencakup: MCTS oleh Coulom (2006), AlphaGo (2016), AlphaGo Zero (2017), AlphaZero yang lebih umum (2017), serta KataGo oleh David Wu yang mengajukan berbagai peningkatan efisiensi (2019); untuk memahami dasarnya bacalah AlphaGo terlebih dahulu, sedangkan untuk referensi implementasi gunakan paper KataGo.

Gambaran Paper

Timeline

Coulom - MCTS pertama kali diterapkan pada Go
Silver et al. - AlphaGo (Nature)
Silver et al. - AlphaGo Zero (Nature)
Silver et al. - AlphaZero
Wu - KataGo
2020+ Berbagai perbaikan dan aplikasi

Rekomendasi Membaca

Tujuan	Paper yang Disarankan
Memahami dasar	AlphaGo (2016)
Memahami self-play	AlphaGo Zero (2017)
Memahami metode umum	AlphaZero (2017)
Referensi implementasi	KataGo (2019)

1. Kelahiran MCTS (2006)

Informasi Paper

Judul: Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search
Penulis: Rémi Coulom
Dipresentasikan: Computers and Games 2006

Kontribusi Inti

Pertama kali menerapkan metode Monte Carlo secara sistematis pada Go:

Sebelumnya: Simulasi acak murni, tanpa struktur pohon
Sesudahnya: Membangun pohon pencarian + Seleksi UCB + Statistik backprop

Konsep Kunci

Formula UCB1

Skor Seleksi = Rata-rata winrate + C × √(ln(N) / n)

Di mana:
- N: Jumlah kunjungan node induk
- n: Jumlah kunjungan node anak
- C: Konstanta eksplorasi

Empat Langkah MCTS

Selection: Pilih node menggunakan UCB
Expansion: Ekspansi node baru
Simulation: Simulasi acak sampai akhir permainan
Backpropagation: Backprop menang/kalah

Dampak

Membuat AI Go mencapai level dan amatir
Menjadi dasar untuk semua AI Go selanjutnya
Konsep UCB mempengaruhi pengembangan PUCT

2. AlphaGo (2016)

Informasi Paper

Judul: Mastering the game of Go with deep neural networks and tree search
Penulis: Silver, D., Huang, A., Maddison, C.J., et al.
Dipublikasikan: Nature, 2016
DOI: 10.1038/nature16961

Kontribusi Inti

Pertama kali menggabungkan deep learning dengan MCTS, mengalahkan juara dunia manusia.

Arsitektur Sistem

Poin Teknis

1. Supervised Learning Policy Network

# Fitur input (48 plane)
- Posisi batu sendiri
- Posisi batu lawan
- Jumlah liberty
- Status setelah penangkapan
- Posisi langkah legal
- Posisi beberapa langkah terakhir
...

2. Perbaikan Reinforcement Learning

SL Policy → Self-play → RL Policy

RL Policy sekitar 80% lebih kuat dari SL Policy

3. Pelatihan Value Network

Kunci mencegah overfitting:
- Hanya ambil satu posisi dari setiap permainan
- Hindari posisi serupa muncul berulang

4. Integrasi MCTS

Evaluasi leaf node = 0.5 × Value Network + 0.5 × Rollout

Rollout menggunakan Policy Network cepat (akurasi lebih rendah tapi lebih cepat)

Data Kunci

Item	Nilai
Akurasi SL Policy	57%
Winrate RL Policy vs SL Policy	80%
GPU Pelatihan	176
GPU Pertandingan	48 TPU

3. AlphaGo Zero (2017)

Informasi Paper

Judul: Mastering the game of Go without human knowledge
Penulis: Silver, D., Schrittwieser, J., Simonyan, K., et al.
Dipublikasikan: Nature, 2017
DOI: 10.1038/nature24270

Kontribusi Inti

Tidak memerlukan rekaman manusia sama sekali, belajar sendiri dari nol.

Perbedaan dengan AlphaGo

Aspek	AlphaGo	AlphaGo Zero
Rekaman manusia	Diperlukan	Tidak diperlukan
Jumlah network	4	1 dual-head
Fitur input	48 plane	17 plane
Rollout	Digunakan	Tidak digunakan
Residual network	Tidak	Ya
Waktu pelatihan	Berbulan-bulan	3 hari

Inovasi Kunci

1. Single Dual-Head Network

2. Fitur Input yang Disederhanakan

# Hanya 17 feature plane
features = [
    current_player_stones,      # Batu sendiri
    opponent_stones,            # Batu lawan
    history_1_player,           # Status historis 1
    history_1_opponent,
    ...                         # Status historis 2-7
    color_to_play               # Giliran siapa
]

3. Evaluasi Pure Value Network

Tidak lagi menggunakan Rollout
Evaluasi leaf node = Output Value Network

Lebih ringkas, lebih cepat

4. Alur Pelatihan

Kurva Pembelajaran

Waktu Pelatihan    Elo
─────────────────────
3 jam              Pemula
24 jam             Melampaui AlphaGo Lee
72 jam             Melampaui AlphaGo Master

4. AlphaZero (2017)

Informasi Paper

Judul: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
Penulis: Silver, D., Hubert, T., Schrittwieser, J., et al.
Dipublikasikan: arXiv:1712.01815 (kemudian dipublikasikan di Science, 2018)

Kontribusi Inti

Generalisasi: Algoritma yang sama diterapkan pada Go, catur, dan shogi.

Arsitektur Umum

Encoding Input (game-specific) → Residual Network (umum) → Dual-head Output (umum)

Adaptasi Lintas Game

Game	Plane Input	Ruang Aksi	Waktu Pelatihan
Go	17	362	40 hari
Catur	119	4672	9 jam
Shogi	362	11259	12 jam

Perbaikan MCTS

Formula PUCT

Skor Seleksi = Q(s,a) + c(s) × P(s,a) × √N(s) / (1 + N(s,a))

c(s) = log((1 + N(s) + c_base) / c_base) + c_init

Noise Eksplorasi

# Tambahkan noise Dirichlet di root node
P(s,a) = (1 - ε) × p_a + ε × η_a

η ~ Dir(α)
α = 0.03 (Go), 0.3 (catur), 0.15 (shogi)

5. KataGo (2019)

Informasi Paper

Judul: Accelerating Self-Play Learning in Go
Penulis: David J. Wu
Dipublikasikan: arXiv:1902.10565

Kontribusi Inti

Peningkatan efisiensi 50x, memungkinkan pengembang individu melatih AI Go yang kuat.

Inovasi Kunci

1. Target Pelatihan Tambahan

Total Loss = Policy Loss + Value Loss +
             Score Loss + Ownership Loss + ...

Target tambahan membuat network konvergen lebih cepat

2. Fitur Global

# Layer global pooling
global_features = global_avg_pool(conv_features)
# Gabungkan dengan fitur lokal
combined = concat(conv_features, broadcast(global_features))

3. Randomisasi Playout Cap

Tradisional: Setiap pencarian N kali tetap
KataGo: N diambil sampel acak dari distribusi tertentu

Membuat network belajar tampil baik di berbagai kedalaman pencarian

4. Ukuran Papan Progresif

if training_step < 1000000:
    board_size = random.choice([9, 13, 19])
else:
    board_size = 19

Perbandingan Efisiensi

Metrik	AlphaZero	KataGo
GPU-hari untuk mencapai level superhuman	5000	100
Peningkatan efisiensi	Baseline	50x

6. Paper Lanjutan

MuZero (2020)

Judul: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Kontribusi: Mempelajari model dinamika lingkungan, tidak memerlukan aturan game

EfficientZero (2021)

Judul: Mastering Atari Games with Limited Data
Kontribusi: Peningkatan efisiensi sampel yang signifikan

Gumbel AlphaZero (2022)

Judul: Policy Improvement by Planning with Gumbel
Kontribusi: Metode policy improvement yang ditingkatkan

Saran Membaca Paper

Urutan untuk Pemula

AlphaGo (2016) - Memahami arsitektur dasar
AlphaGo Zero (2017) - Memahami self-play
KataGo (2019) - Memahami detail implementasi

Urutan Lanjutan

AlphaZero (2017) - Generalisasi
MuZero (2020) - Mempelajari model dunia
Paper MCTS asli - Memahami dasar

Tips Membaca

Baca abstrak dan kesimpulan dulu: Pahami cepat kontribusi inti
Lihat gambar dan tabel: Pahami arsitektur keseluruhan
Baca bagian metode: Pahami detail teknis
Lihat lampiran: Temukan detail implementasi dan hyperparameter

Link Sumber Daya

PDF Paper

Paper	Link
AlphaGo	Nature
AlphaGo Zero	Nature
AlphaZero	Science
KataGo	arXiv

Implementasi Open Source

Proyek	Link
KataGo	GitHub
Leela Zero	GitHub
MiniGo	GitHub

Bacaan Lanjutan

Detail Arsitektur Neural Network — Memahami mendalam desain network
Detail Implementasi MCTS — Implementasi algoritma pencarian
Analisis Mekanisme Pelatihan KataGo — Detail alur pelatihan

Gambaran Paper​

Timeline​

Rekomendasi Membaca​

1. Kelahiran MCTS (2006)​

Informasi Paper​

Kontribusi Inti​

Konsep Kunci​

Formula UCB1​

Empat Langkah MCTS​

Dampak​

2. AlphaGo (2016)​

Informasi Paper​

Kontribusi Inti​

Arsitektur Sistem​

Poin Teknis​

1. Supervised Learning Policy Network​

2. Perbaikan Reinforcement Learning​

3. Pelatihan Value Network​

4. Integrasi MCTS​

Data Kunci​

3. AlphaGo Zero (2017)​

Informasi Paper​

Kontribusi Inti​

Perbedaan dengan AlphaGo​

Inovasi Kunci​

1. Single Dual-Head Network​

2. Fitur Input yang Disederhanakan​

3. Evaluasi Pure Value Network​

4. Alur Pelatihan​

Kurva Pembelajaran​

4. AlphaZero (2017)​

Informasi Paper​

Kontribusi Inti​

Arsitektur Umum​

Adaptasi Lintas Game​

Perbaikan MCTS​

Formula PUCT​

Noise Eksplorasi​

5. KataGo (2019)​

Informasi Paper​

Kontribusi Inti​

Inovasi Kunci​

1. Target Pelatihan Tambahan​

2. Fitur Global​

3. Randomisasi Playout Cap​

4. Ukuran Papan Progresif​

Perbandingan Efisiensi​

6. Paper Lanjutan​

MuZero (2020)​

EfficientZero (2021)​

Gumbel AlphaZero (2022)​

Saran Membaca Paper​

Urutan untuk Pemula​

Urutan Lanjutan​

Tips Membaca​

Link Sumber Daya​

PDF Paper​

Implementasi Open Source​

Bacaan Lanjutan​

Gambaran Paper

Timeline

Rekomendasi Membaca

1. Kelahiran MCTS (2006)

Informasi Paper

Kontribusi Inti

Konsep Kunci

Formula UCB1

Empat Langkah MCTS

Dampak

2. AlphaGo (2016)

Informasi Paper

Kontribusi Inti

Arsitektur Sistem

Poin Teknis

1. Supervised Learning Policy Network

2. Perbaikan Reinforcement Learning

3. Pelatihan Value Network

4. Integrasi MCTS

Data Kunci

3. AlphaGo Zero (2017)

Informasi Paper

Kontribusi Inti

Perbedaan dengan AlphaGo

Inovasi Kunci

1. Single Dual-Head Network

2. Fitur Input yang Disederhanakan

3. Evaluasi Pure Value Network

4. Alur Pelatihan

Kurva Pembelajaran

4. AlphaZero (2017)

Informasi Paper

Kontribusi Inti

Arsitektur Umum

Adaptasi Lintas Game

Perbaikan MCTS

Formula PUCT

Noise Eksplorasi

5. KataGo (2019)

Informasi Paper

Kontribusi Inti

Inovasi Kunci

1. Target Pelatihan Tambahan

2. Fitur Global

3. Randomisasi Playout Cap

4. Ukuran Papan Progresif

Perbandingan Efisiensi

6. Paper Lanjutan

MuZero (2020)

EfficientZero (2021)

Gumbel AlphaZero (2022)

Saran Membaca Paper

Urutan untuk Pemula

Urutan Lanjutan

Tips Membaca

Link Sumber Daya

PDF Paper

Implementasi Open Source

Bacaan Lanjutan