Proses Pelatihan dari Nol

Yang paling menakjubkan dari AlphaGo Zero bukan hanya kekuatan bermain akhirnya, tetapi proses pertumbuhannya—dimulai dari keadaan yang sepenuhnya acak, dalam hanya tiga hari ia menjalani akumulasi pengetahuan Go yang membutuhkan waktu ribuan tahun bagi manusia, lalu melampaui semua pemahaman manusia.

Artikel ini akan membawa Anda menyaksikan proses transformasi yang menakjubkan ini langkah demi langkah.

Kurva Pelatihan

Pertama, mari kita lihat kurva pertumbuhan kekuatan bermain AlphaGo Zero:

載入中...

Kurva ini menunjukkan perubahan kekuatan bermain AlphaGo Zero dalam 72 jam. Perhatikan beberapa milestone penting:

Waktu	Rating ELO	Setara dengan
0 jam	0	Bermain acak
3 jam	~1000	Menemukan aturan dasar
12 jam	~3000	Menemukan joseki dan bentuk batu
36 jam	~4500	Melampaui AlphaGo versi Fan Hui
60 jam	~5200	Melampaui AlphaGo versi Lee Sedol
72 jam	~5400	Melampaui semua versi sebelumnya

Tiga hari, dari nol hingga melampaui puncak kemampuan manusia.

Day 0: Awal yang Kacau

Keadaan Awal yang Sepenuhnya Acak

Saat pelatihan dimulai, bobot neural network diinisialisasi secara acak. Ini berarti:

Policy Head: Output mendekati distribusi seragam, probabilitas bermain di setiap posisi sekitar 1/361
Value Head: Output mendekati 0, tidak dapat membedakan posisi baik dan buruk

Pada saat ini, AlphaGo Zero bermain sepenuhnya secara acak—bahkan lebih buruk dari seseorang yang belum pernah melihat papan Go.

Pertandingan Self-play Pertama

Bayangkan seperti apa pertandingan self-play pertama:

Hitam 1: Bermain acak di suatu tempat (mungkin tengen, mungkin di sudut, mungkin di baris pertama)
Putih 2: Bermain acak di tempat lain
Hitam 3: Acak...
...
Langkah ke-200: Papan dipenuhi batu-batu yang terisolasi, tanpa koneksi apapun
Akhir: Kemenangan ditentukan oleh faktor acak

"Kualitas" permainan ini sangat rendah, tetapi mengandung informasi berharga: siapa yang akhirnya menang.

Sinyal Pelatihan Pertama

Meskipun kedua belah pihak bermain secara acak, hasil menang/kalah sudah pasti. Neural network mulai belajar:

"Dalam posisi ini, akhirnya hitam menang. Meskipun saya tidak tahu mengapa, posisi ini mungkin lebih baik untuk hitam."

Ini adalah sinyal yang sangat lemah, tetapi nyata. Setelah ribuan pertandingan "sampah" seperti ini, network mulai menemukan beberapa pola statistik.

Jam 1-3: Menemukan Aturan Permainan

Kesadaran Aturan yang Muncul

Setelah puluhan ribu pertandingan self-play, AlphaGo Zero mulai "menemukan" aturan dasar Go (meskipun aturan ini sudah tertanam dalam game engine):

1. Pentingnya Koneksi

Pengamatan: Ketika batu-batu terhubung, mereka lebih sulit ditangkap
Pembelajaran: Mulai memprioritaskan bermain di sebelah batu yang sudah ada

Ini tidak diajarkan, tetapi dipelajari dari hasil menang/kalah. Batu-batu yang tersebar mudah dikalahkan satu per satu, batu-batu yang terhubung dalam kelompok lebih mudah bertahan.

2. Konsep Liberty

Pengamatan: Ketika semua titik yang berdekatan dengan batu diduduki, batu tersebut menghilang
Pembelajaran: Mulai menghindari posisi dengan sedikit liberty, mulai menyerang batu lawan dengan sedikit liberty

Network belajar melacak jumlah liberty—meskipun tidak ada fitur "jumlah liberty" eksplisit dalam input, ini dapat disimpulkan dari riwayat keadaan papan.

3. Bentuk Awal Mata

Pengamatan: Bentuk-bentuk tertentu sangat sulit ditangkap
Pembelajaran: Mulai membentuk bentuk dengan ruang di sudut dan sisi

Ini adalah bibit konsep hidup. Network menemukan bahwa kelompok batu dengan ruang internal lebih mudah bertahan.

Evaluasi Kekuatan Bermain

Pada titik ini, AlphaGo Zero kira-kira:

ELO: ~1000
Setara dengan: Pemula yang baru belajar aturan
Karakteristik: Tahu untuk menghubungkan batu, tahu untuk menangkap batu lawan

Jam 3-12: Menemukan Joseki dan Bentuk Batu

Kebangkitan Sudut

Dengan lebih banyak pelatihan, network menemukan pentingnya sudut:

Pengamatan: Batu di sudut hanya membutuhkan 2 mata untuk hidup
            Di sisi membutuhkan 2 mata lebih sulit
            Di tengah membutuhkan 2 mata paling sulit
Pembelajaran: Prioritaskan menduduki sudut di pembukaan

Ini adalah proses penemuan "sudut emas, sisi perak, perut rumput" dalam teori Go manusia. Network tidak diberitahu prinsip ini, melainkan menemukan sendiri dari ratusan ribu pertandingan.

Munculnya Joseki

Yang lebih menakjubkan, network mulai "menciptakan" joseki—permainan standar kedua belah pihak di sudut:

Fenomena yang Diamati

Awal pelatihan: Permainan sudut sangat beragam
Pertengahan pelatihan: Beberapa permainan muncul berulang kali
Akhir pelatihan: Terbentuk joseki sudut yang stabil

Joseki ini sangat mirip dengan joseki yang dikumpulkan manusia selama berabad-abad, memverifikasi bahwa joseki ini memang merupakan perkiraan solusi optimal untuk kedua belah pihak.

Joseki Tipikal yang Muncul

Contoh joseki komoku:

  A B C D E F G H J
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . ● . . . . .   ● = Hitam
. . . . . . . . .   ○ = Putih
. . . ○ . ● . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

Hitam menduduki komoku, putih melakukan kakari, hitam melakukan hasami—urutan ini muncul secara alami selama pelatihan.

Pengetahuan Bentuk Batu

Selain joseki, network juga belajar membedakan bentuk baik dan buruk:

Bentuk	Evaluasi Manusia	Pembelajaran Zero
Empty triangle	Bentuk buruk	Secara bertahap menghindari
Tiger's mouth	Bentuk baik	Secara bertahap lebih disukai
Double wing	Bentuk serangan klasik	Ditemukan secara alami
Knight's move cap	Serangan kuat	Ditemukan secara alami

Evaluasi Kekuatan Bermain

Pada titik ini AlphaGo Zero:

ELO: ~3000
Setara dengan: Dan tinggi amatir
Karakteristik: Memiliki pengetahuan joseki dasar, memahami bentuk batu dasar

Jam 12-36: Pematangan Teori Go

Pembentukan Visi Whole-board

Memasuki hari kedua, network mulai menunjukkan visi whole-board:

Pengaruh dan Wilayah

Pengamatan: Mengepung ruang dapat menghasilkan poin
            Tetapi pengaruh juga memiliki nilai—dapat digunakan untuk menyerang lawan
Pembelajaran: Mencari keseimbangan antara mengambil wilayah dan mengambil pengaruh

Ini adalah salah satu konsep paling mendalam dalam Go. Network belajar mengevaluasi nilai "virtual" dan "riil".

Penilaian Tebal dan Tipis

Pengamatan: Batu "tebal" dapat mendukung pertempuran jarak jauh
            Batu "tipis" perlu diperkuat, jika tidak akan diserang
Pembelajaran: Secara aktif membangun ketebalan, menyerang kelemahan lawan

Taktik Tengah Permainan

Kemampuan pertempuran tengah permainan network meningkat signifikan:

Teknik	Deskripsi
Menyerang batu lemah	Mengidentifikasi batu terisolasi lawan, melancarkan serangan
Memanfaatkan ketebalan	Menggunakan ketebalan untuk mendukung serangan, memperoleh keuntungan
Pertukaran	Melepaskan kerugian lokal, mendapatkan keuntungan whole-board
Invasi	Menginvasi moyo lawan

Teknik Endgame

Perhitungan tepat dalam fase endgame juga meningkat:

Pengamatan: Nilai setiap langkah dalam endgame dapat dihitung dengan tepat
Pembelajaran: Bermain endgame sesuai urutan nilai

Network mempelajari konsep endgame seperti "sente ganda", "sente tunggal", "gote".

Evaluasi Kekuatan Bermain

Pada titik ini AlphaGo Zero:

ELO: ~4500
Setara dengan: Level pemain profesional
Karakteristik: Memiliki pemahaman Go yang lengkap, dapat memainkan pertandingan berkualitas tinggi

Jam 36-72: Melampaui Manusia

Menembus Level Profesional

Sekitar 36 jam, kekuatan bermain AlphaGo Zero mencapai level pemain profesional. Tetapi pelatihan tidak berhenti—ia terus self-play, terus meningkat.

Yang terjadi selanjutnya lebih menarik: ia mulai menemukan langkah-langkah yang tidak pernah terpikirkan manusia.

Pembukaan yang Mengganggu

Pembukaan Go tradisional memiliki banyak "pandangan tetap":

Pandangan Tradisional	Penemuan AlphaGo Zero
Pembukaan dulu menduduki sudut	Dalam situasi tertentu menduduki sisi lebih baik
Komoku paling solid	Langsung menduduki san-san bisa dilakukan
Joseki harus dihafalkan	Dapat secara aktif menyimpang dari joseki
San-san terlalu awal itu serakah	Dalam posisi tertentu san-san benar

"Penemuan" ini setelah AlphaGo dipelajari secara luas oleh pemain profesional manusia, banyak yang telah dimasukkan ke dalam teori Go modern.

Bentuk Batu Kontra-intuitif

AlphaGo Zero terkadang memainkan bentuk yang manusia anggap "tidak bagus":

Manusia: "Ini bentuk buruk, tidak mungkin langkah bagus"
Zero: (memainkan langkah itu)
Setelah analisis: "Ternyata ini lebih efisien"

Ini mengungkapkan keterbatasan teori Go manusia: beberapa "bentuk buruk" sebenarnya adalah solusi optimal dalam posisi tertentu.

Pengorbanan Agresif

Zero lebih bersedia mengorbankan batu untuk keuntungan lain dibanding manusia:

Kerugian lokal 3 poin
Mendapatkan inisiatif whole-board
Akhirnya tingkat kemenangan meningkat

Pemain manusia sering terlalu peduli dengan keuntungan/kerugian lokal, sementara Zero selalu fokus pada tingkat kemenangan akhir.

Evaluasi Kekuatan Bermain

Setelah 72 jam AlphaGo Zero:

ELO: ~5400
Setara dengan: Melampaui semua pemain manusia
Karakteristik: Menemukan langkah-langkah yang tidak diketahui manusia, menciptakan teori Go baru

Menemukan Kembali Teori Go Manusia

Ribuan Tahun vs. Tiga Hari

Go manusia berkembang selama ribuan tahun:

Berasal dari Tiongkok sekitar 2000 SM
Masuk ke Jepang pada Dinasti Tang, mengembangkan teori Go yang presisi
Sistem profesional muncul di abad ke-20, teori Go semakin dalam
2016, manusia mengira sudah cukup memahami Go

AlphaGo Zero menyelesaikan perjalanan ini dalam tiga hari. Yang lebih menakjubkan, teori Go yang ditemukannya sangat konsisten dengan teori manusia.

Verifikasi dan Melampaui

Pengetahuan Manusia	Sikap Zero
Sudut emas, sisi perak, perut rumput	Dikonfirmasi (sudut memang penting)
Joseki dasar	Sebagian besar dikonfirmasi, beberapa diperbaiki
Bentuk baik dan buruk	Sebagian besar dikonfirmasi, ada pengecualian
Pengorbanan dan pertukaran	Lebih agresif dari manusia
Penilaian tebal dan tipis	Secara umum konsisten, detail berbeda

Ini menunjukkan teori Go yang dikumpulkan manusia selama ribuan tahun arah besarnya benar. Tetapi ada beberapa area di mana pemahaman manusia perlu dikoreksi.

Inspirasi untuk Pembelajaran Manusia

Proses pelatihan AlphaGo Zero memberikan inspirasi untuk pembelajaran manusia:

Mulai dari dasar: Zero pertama belajar aturan, kemudian bentuk batu, akhirnya mengembangkan visi whole-board
Latihan intensif: 4,9 juta pertandingan self-play setara dengan puluhan ribu tahun volume pertandingan manusia
Fokus pada menang/kalah: Tidak mengejar "Go yang indah", hanya mengejar kemenangan
Tidak terikat tradisi: Berani mencoba langkah-langkah "tidak mungkin"

Detail Teknis Proses Pelatihan

Mekanisme Self-play

Alur setiap pertandingan self-play:

Inisialisasi: Papan kosong
↓
Setiap langkah:
  1. Gunakan neural network untuk mengevaluasi posisi saat ini
  2. Jalankan pencarian MCTS (1600 simulasi)
  3. Pilih langkah berdasarkan hasil pencarian
  4. Catat (posisi, probabilitas MCTS, -)
↓
Permainan berakhir:
  1. Tentukan hasil z ∈ {-1, +1}
  2. Tambahkan hasil ke semua catatan (posisi, probabilitas MCTS, z)
  3. Tambahkan data ke training pool

Ritme Pelatihan

Pelatihan AlphaGo Zero berlangsung terus-menerus:

Self-play Workers:       Terus menghasilkan data self-play
Training Workers:        Terus mengambil sampel dari data pool untuk pelatihan
Network Updates:         Secara berkala memperbarui network untuk self-play

Ketiga proses ini berjalan bersamaan, membentuk siklus perbaikan berkelanjutan.

Manajemen Data Pool

Manajemen training data pool:

Parameter	Nilai
Ukuran pool	500.000 pertandingan terakhir
Sampel per pertandingan	~200 langkah
Total sampel	~100 juta
Metode sampling	Acak seragam

Data lama digantikan oleh data baru, memastikan data pelatihan mencerminkan level network saat ini.

Strategi Pembaruan Network

Network untuk self-play tidak diperbarui setiap langkah pelatihan. Melainkan:

Setelah pelatihan untuk periode tertentu, hasilkan network kandidat
Network kandidat melawan network saat ini (400 pertandingan)
Jika tingkat kemenangan network kandidat > 55%, perbarui
Jika tidak, lanjutkan pelatihan

Ini memastikan self-play selalu menggunakan network yang cukup kuat.

Analisis Kecepatan Pembelajaran

Mengapa Begitu Cepat?

Alasan kecepatan pembelajaran AlphaGo Zero yang menakjubkan:

1. Sumber Daya Komputasi

4 TPU, puluhan ribu inferensi per detik
Menghasilkan ratusan ribu pertandingan self-play per hari
Setara dengan ribuan tahun volume pertandingan manusia

2. Lawan Sempurna

Self-play berarti:

Lawan selalu setara dengan diri sendiri
Tidak terlalu lemah (tidak bisa belajar) atau terlalu kuat (tidak bisa menang)
Ini adalah kondisi pembelajaran ideal

3. Tujuan Langsung

Hanya satu tujuan: menang. Tidak ada:

Preferensi guru
Pengejaran gaya
Pertimbangan estetika

4. Representation Learning yang Efisien

Residual network dapat mempelajari fitur papan yang sangat abstrak, lebih efektif daripada fitur yang dirancang manual.

Perbandingan dengan Manusia

Aspek	Manusia	AlphaGo Zero
Kecepatan belajar	~10 pertandingan/hari	~100.000 pertandingan/hari
Retensi memori	Ada kelupaan	Retensi sempurna
Batasan energi	Perlu istirahat	Beroperasi 24/7
Kemampuan inovasi	Terpengaruh tradisi	Tidak ada batasan preset

Fenomena Menarik dalam Proses Pelatihan

Stagnasi Bertahap

Kurva pelatihan tidak sepenuhnya mulus, terkadang muncul periode stagnasi:

ELO: 2000 -----> 2000 -----> 2500 ---->
          (stagnasi)    (terobosan)

Ini mungkin karena network sedang mempelajari konsep baru, membutuhkan waktu untuk "mencerna".

Munculnya dan Hilangnya Strategi

Beberapa strategi muncul selama pelatihan, kemudian menghilang:

Tahap 1: Menemukan teknik serangan tertentu
Tahap 2: Lawan belajar bertahan
Tahap 3: Frekuensi penggunaan teknik tersebut menurun
Tahap 4: Menemukan teknik serangan baru

Ini adalah miniatur perlombaan senjata.

"Menemukan Kembali Roda"

Selama pelatihan, Zero "menemukan kembali" konsep-konsep yang sudah diketahui manusia:

Ladder: Menemukan bahwa atari berturut-turut dapat menangkap batu
Snapback: Menemukan bahwa bisa mengorbankan batu dulu kemudian menangkap balik
Ko: Menemukan cara memanfaatkan aturan penghindaran

Urutan penemuan ini mirip dengan urutan manusia belajar Go.

Korespondensi Animasi

Konsep inti dalam artikel ini dan nomor animasi:

Nomor	Konsep	Korespondensi Fisika/Matematika
🎬 E12	Kurva pertumbuhan kekuatan bermain	Pertumbuhan S (logistik)
🎬 E7	Dari nol	Fenomena self-organization
🎬 E5	Self-play	Konvergensi titik tetap
🎬 F8	Kemampuan emergent	Transisi fase

Bacaan Lanjutan

Artikel sebelumnya: Dual-head Network dan Residual Network — Arsitektur neural network yang mendukung semua ini
Artikel selanjutnya: Sistem Terdistribusi dan TPU — Hardware yang membuat semua ini mungkin
Artikel terkait: Self-play — Mengapa self-play begitu efektif

Referensi

Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
Silver, D., et al. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
DeepMind. (2017). "AlphaGo Zero: Learning from scratch." YouTube.
Wang, F., et al. (2019). "A Survey on the Evolution of AlphaGo." arXiv:1907.11180.

Kurva Pelatihan​

Day 0: Awal yang Kacau​

Keadaan Awal yang Sepenuhnya Acak​

Pertandingan Self-play Pertama​

Sinyal Pelatihan Pertama​

Jam 1-3: Menemukan Aturan Permainan​

Kesadaran Aturan yang Muncul​

1. Pentingnya Koneksi​

2. Konsep Liberty​

3. Bentuk Awal Mata​

Evaluasi Kekuatan Bermain​

Jam 3-12: Menemukan Joseki dan Bentuk Batu​

Kebangkitan Sudut​

Munculnya Joseki​

Fenomena yang Diamati​

Joseki Tipikal yang Muncul​

Pengetahuan Bentuk Batu​

Evaluasi Kekuatan Bermain​

Jam 12-36: Pematangan Teori Go​

Pembentukan Visi Whole-board​

Pengaruh dan Wilayah​

Penilaian Tebal dan Tipis​

Taktik Tengah Permainan​

Teknik Endgame​

Evaluasi Kekuatan Bermain​

Jam 36-72: Melampaui Manusia​

Menembus Level Profesional​

Pembukaan yang Mengganggu​

Bentuk Batu Kontra-intuitif​

Pengorbanan Agresif​

Evaluasi Kekuatan Bermain​

Menemukan Kembali Teori Go Manusia​

Ribuan Tahun vs. Tiga Hari​

Verifikasi dan Melampaui​

Inspirasi untuk Pembelajaran Manusia​

Detail Teknis Proses Pelatihan​

Mekanisme Self-play​

Ritme Pelatihan​

Manajemen Data Pool​

Strategi Pembaruan Network​

Analisis Kecepatan Pembelajaran​

Mengapa Begitu Cepat?​

1. Sumber Daya Komputasi​

2. Lawan Sempurna​

3. Tujuan Langsung​

4. Representation Learning yang Efisien​

Perbandingan dengan Manusia​

Fenomena Menarik dalam Proses Pelatihan​

Stagnasi Bertahap​

Munculnya dan Hilangnya Strategi​

"Menemukan Kembali Roda"​

Korespondensi Animasi​

Bacaan Lanjutan​

Referensi​

Kurva Pelatihan

Day 0: Awal yang Kacau

Keadaan Awal yang Sepenuhnya Acak

Pertandingan Self-play Pertama

Sinyal Pelatihan Pertama

Jam 1-3: Menemukan Aturan Permainan

Kesadaran Aturan yang Muncul

1. Pentingnya Koneksi

2. Konsep Liberty

3. Bentuk Awal Mata

Evaluasi Kekuatan Bermain

Jam 3-12: Menemukan Joseki dan Bentuk Batu

Kebangkitan Sudut

Munculnya Joseki

Fenomena yang Diamati

Joseki Tipikal yang Muncul

Pengetahuan Bentuk Batu

Evaluasi Kekuatan Bermain

Jam 12-36: Pematangan Teori Go

Pembentukan Visi Whole-board

Pengaruh dan Wilayah

Penilaian Tebal dan Tipis

Taktik Tengah Permainan

Teknik Endgame

Evaluasi Kekuatan Bermain

Jam 36-72: Melampaui Manusia

Menembus Level Profesional

Pembukaan yang Mengganggu

Bentuk Batu Kontra-intuitif

Pengorbanan Agresif

Evaluasi Kekuatan Bermain

Menemukan Kembali Teori Go Manusia

Ribuan Tahun vs. Tiga Hari

Verifikasi dan Melampaui

Inspirasi untuk Pembelajaran Manusia

Detail Teknis Proses Pelatihan

Mekanisme Self-play

Ritme Pelatihan

Manajemen Data Pool

Strategi Pembaruan Network

Analisis Kecepatan Pembelajaran

Mengapa Begitu Cepat?

1. Sumber Daya Komputasi

2. Lawan Sempurna

3. Tujuan Langsung

4. Representation Learning yang Efisien

Perbandingan dengan Manusia

Fenomena Menarik dalam Proses Pelatihan

Stagnasi Bertahap

Munculnya dan Hilangnya Strategi

"Menemukan Kembali Roda"

Korespondensi Animasi

Bacaan Lanjutan

Referensi