Kelahiran AlphaGo

Pada Maret 2016, ketika AlphaGo mengalahkan Lee Sedol dengan skor 4:1, seluruh dunia bertanya: bagaimana program yang mengubah sejarah kecerdasan buatan ini lahir?

Jawabannya dimulai dari mimpi seorang prodigy catur.

Pendirian DeepMind

Demis Hassabis: Dari Prodigy ke Pelopor AI

Demis Hassabis adalah co-founder dan CEO DeepMind. Pengalaman hidupnya seolah-olah disiapkan untuk menciptakan AlphaGo.

Prodigy Catur

Lahir di London pada 1975, Hassabis belajar bermain catur pada usia 4 tahun dan mencapai level master catur (Elo 2300+) pada usia 13 tahun, menjadi orang termuda kedua yang mencapai level ini dalam sejarah Inggris.

Pengalaman ini memberinya pemahaman mendalam:

Permainan papan adalah ujian kecerdasan: Bermain catur membutuhkan perencanaan, intuisi, dan pengenalan pola
Esensi kecerdasan manusia: Bagaimana pemain menemukan langkah bagus di antara kemungkinan yang sangat banyak?
Keterbatasan komputer: Kemenangan Deep Blue atas Kasparov pada 1997 berdasarkan brute force search, bukan "pemahaman" yang sebenarnya

Game Designer

Pada usia 17, Hassabis bergabung dengan Bullfrog Productions (perusahaan game yang didirikan oleh Peter Molyneux, pencipta "Populous"), berpartisipasi dalam pengembangan game klasik "Theme Park". Pengalaman ini mengajarinya:

Cara mendesain sistem kompleks: Game adalah model yang disederhanakan yang mensimulasikan dunia nyata
Prediksi perilaku pemain: AI perlu memahami proses pengambilan keputusan manusia

Neuroscientist Kognitif

Setelah mendapatkan gelar Ilmu Komputer dari Cambridge, Hassabis mendapatkan gelar PhD dalam Cognitive Neuroscience dari University College London (UCL). Topik penelitiannya adalah: bagaimana hippocampus memungkinkan manusia berimajinasi dan merencanakan.

Penelitian ini menemukan:

Memori dan imajinasi manusia menggunakan area otak yang sama
Kita merencanakan masa depan melalui "perjalanan waktu mental"
Kemampuan ini mungkin merupakan inti dari kecerdasan

Wawasan ini secara langsung mempengaruhi desain AlphaGo nantinya — memungkinkan AI untuk "membayangkan" langkah-langkah masa depan dan belajar darinya.

Co-founder

Pada 2010, Hassabis mendirikan DeepMind bersama dua mitra:

Pendiri	Latar Belakang	Kontribusi
Demis Hassabis	Neuroscience, Game Design	Visi dan Strategi
Shane Legg	PhD Machine Learning	Dasar Teoretis AGI
Mustafa Suleyman	Pengusaha Sosial	Bisnis dan Aplikasi

"Selesaikan Kecerdasan, Gunakan Kecerdasan untuk Menyelesaikan Segalanya"

Pernyataan misi DeepMind adalah:

"Solve intelligence, and then use that to solve everything else."

"Selesaikan kecerdasan, dan kemudian gunakan itu untuk menyelesaikan segala hal lainnya."

Ini bukan perusahaan AI biasa. Tujuan mereka bukan membuat produk, tetapi menciptakan Artificial General Intelligence (AGI) — AI yang dapat berpikir, belajar, dan memecahkan masalah apa pun seperti manusia.

Mengapa "menyelesaikan kecerdasan" dulu? Karena begitu kita memiliki AGI, AGI dapat membantu kita menyelesaikan tantangan terbesar umat manusia: perubahan iklim, penyakit, energi.

Terobosan Awal: Game Atari

Sebelum menantang Go, DeepMind pertama-tama membuktikan kemampuannya — menggunakan AI untuk bermain game Atari.

DQN: AI yang Belajar Bermain Game

Pada 2013, DeepMind mempublikasikan algoritma DQN (Deep Q-Network). AI ini mampu:

Hanya melihat piksel layar — tidak diberi aturan game apa pun
Belajar bermain sendiri — melalui trial and error
Mencapai level manusia — dan bahkan melampaui manusia di beberapa game

Di Breakout, DQN mempelajari strategi yang butuh berjam-jam bagi manusia untuk menemukannya: menggali terowongan untuk membiarkan bola melewati batu bata, menghilangkan banyak sekaligus.

Ini membuktikan bahwa kombinasi deep learning + reinforcement learning dapat menemukan strategi yang tidak pernah terpikirkan oleh manusia.

Mengapa Mulai dari Game?

Hassabis memilih game sebagai platform penelitian karena beberapa alasan:

Lingkungan terkontrol: Game memiliki aturan dan tujuan yang jelas
Kemajuan terukur: Ada skor objektif untuk mengevaluasi kemampuan AI
Benchmark manusia: Dapat dibandingkan dengan pemain manusia
Keragaman: Game yang berbeda menguji kemampuan yang berbeda

Metodologi ini kemudian diterapkan pada Go.

Akuisisi oleh Google

Taruhan 500 Juta Dolar

Pada Januari 2014, Google mengakuisisi DeepMind senilai sekitar 500 juta dolar. Ini adalah salah satu akuisisi terbesar di bidang AI pada saat itu.

Mengapa Google bersedia membayar begitu banyak untuk perusahaan dengan hanya 75 orang dan tanpa produk?

Jawabannya ada di game theory:

Facebook juga ikut menawar: Rumor mengatakan Facebook menawarkan 400 juta dolar
AI adalah teknologi kunci masa depan: Siapa yang menguasai AI lebih dulu, akan menguasai masa depan
DeepMind adalah tim terbaik: Mereka telah membuktikan kelayakan deep reinforcement learning

CEO Google Larry Page turun tangan langsung untuk meyakinkan Hassabis memilih Google daripada Facebook.

Syarat Akuisisi

Hassabis menegosiasikan beberapa syarat penting:

Operasi independen: DeepMind mempertahankan kantor pusat London, R&D independen
Kebebasan akademis: Dapat mempublikasikan paper, bukan merahasiakan semuanya
Komite etika: Pembentukan mekanisme review etika AI
Penelitian jangka panjang: Tidak ada tekanan komersialisasi jangka pendek

Syarat-syarat ini memungkinkan DeepMind mengejar penelitian jangka panjang, berisiko tinggi — seperti menaklukkan Go dengan AI.

Strategi AI Google

Akuisisi DeepMind adalah bagian dari strategi "AI first" Google:

Tahun	Peristiwa
2011	Pendirian Google Brain
2013	Akuisisi DNNresearch (tim Hinton)
2014	Akuisisi DeepMind
2015	TensorFlow open source
2016	Peluncuran TPU

Google menyadari: pencarian, iklan, terjemahan, suara — semua bisnis inti akan dibentuk ulang oleh AI. Siapa yang memiliki AI terbaik akan menjadi pemenang.

Memilih Go sebagai Target

Mengapa Go?

Setelah diakuisisi Google, DeepMind memiliki lebih banyak sumber daya. Hassabis memutuskan untuk menantang target yang tampaknya mustahil: menggunakan AI untuk mengalahkan juara dunia Go manusia.

Mengapa memilih Go, dan bukan masalah lain?

1. Go adalah "Holy Grail AI"

Sebelum 2016, para ahli umumnya percaya AI membutuhkan setidaknya 10-20 tahun untuk mengalahkan manusia di Go. Go disebut "benteng terakhir AI".

Alasannya:

Ruang pencarian sangat besar: 10^170 posisi yang mungkin (jumlah atom di alam semesta hanya 10^80)
Evaluasi sulit: Tidak seperti catur, tidak ada nilai bidak yang jelas
Ketergantungan pada intuisi: Pemain top sering mengatakan "langkah ini terasa benar", tapi tidak bisa menjelaskan mengapa

2. Pelajaran dari Deep Blue

Pada 1997, Deep Blue IBM mengalahkan juara dunia catur Kasparov. Tapi kemenangan ini kontroversial:

Deep Blue mengandalkan brute force search (mengevaluasi 200 juta posisi per detik)
Menggunakan fungsi evaluasi yang dirancang oleh ahli manusia
Ini bukan "kecerdasan" yang sebenarnya, tapi "kekuatan komputasi"

Hassabis ingin membuktikan: AI dapat memecahkan masalah melalui pembelajaran, bukan brute force.

3. Target Terukur

Go memiliki sistem peringkat internasional (Elo rating) dan pemain profesional, memberikan standar pengukuran objektif. Jika AI bisa mengalahkan juara dunia, itu akan menjadi keberhasilan yang tidak terbantahkan.

4. Koneksi dengan Neuroscience

Intuisi pemain manusia — melihat papan dan langsung tahu posisi mana yang penting — adalah kemampuan yang ingin Hassabis replikasi dengan AI. Go adalah skenario sempurna untuk menguji "intuisi mesin".

Tim AlphaGo

Tokoh Kunci

Keberhasilan AlphaGo berasal dari tim dengan latar belakang multidisipliner:

David Silver: Peneliti Utama

David Silver adalah penulis pertama paper AlphaGo dan ahli terkemuka di bidang reinforcement learning.

Latar Belakang: Lulusan Matematika Cambridge, PhD RL dari University of Alberta
Pembimbing: Richard Sutton (bapak reinforcement learning)
Spesialisasi: Monte Carlo Tree Search, temporal difference learning

Silver meneliti computer Go dalam tesis PhD-nya, tapi teknologi saat itu belum matang. Setelah bergabung dengan DeepMind, ia akhirnya mendapat kesempatan mewujudkan mimpi ini.

Aja Huang: Ahli Go

Aja Huang (Huang Shih-Chieh) adalah orang Taiwan, pemain amatir 6 dan, dan juga pelopor di bidang computer Go.

Latar Belakang: PhD Ilmu Komputer dari National Taiwan Normal University
Spesialisasi: Pemrograman computer Go
Karya terkenal: Erica (program computer Go awal)

Huang memainkan peran kunci dalam tim AlphaGo: ia tidak hanya memahami Go, tapi juga AI. Dalam pertandingan melawan Lee Sedol, dialah yang mengoperasikan AlphaGo.

Anggota Kunci Lainnya

Anggota	Peran
Chris J. Maddison	Ahli Monte Carlo Tree Search
Arthur Guez	Peneliti Reinforcement Learning
Laurent Sifre	Insinyur Deep Learning
George van den Driessche	Insinyur Sistem Terdistribusi

Kolaborasi Interdisipliner

Keberhasilan AlphaGo membuktikan kekuatan kolaborasi interdisipliner:

Ahli Go memberikan pengetahuan domain
Peneliti machine learning mendesain algoritma
Insinyur mengimplementasikan sistem pelatihan skala besar
Neuroscientist memberikan inspirasi teoretis

Komposisi tim ini kemudian menjadi standar DeepMind.

Publikasi di Nature

Kejutan Rahasia

Pada 27 Januari 2016, DeepMind mempublikasikan paper di jurnal akademis top Nature:

"Mastering the game of Go with deep neural networks and tree search"

Paper mengumumkan bahwa AlphaGo telah:

Mengalahkan semua program Go lainnya
Mengalahkan juara Eropa Fan Hui (profesional 2 dan) dengan skor 5:0

Berita ini mengejutkan dunia. Sebelum publikasi paper, tidak ada yang tahu DeepMind sedang meneliti Go.

Kontribusi Utama Paper

Paper Nature menjelaskan tiga inovasi besar AlphaGo:

1. Policy Network

Menggunakan deep convolutional neural network untuk memprediksi langkah selanjutnya pemain manusia. Data pelatihan berasal dari 30 juta partai manusia.

Akurasi: 57% (memprediksi langkah selanjutnya ahli manusia)

Ini lebih dari 10 poin persentase lebih tinggi dari program computer Go terbaik sebelumnya.

2. Value Network

Menggunakan neural network lain untuk mengevaluasi tingkat kemenangan posisi saat ini. Ini menggantikan simulasi acak tradisional (Monte Carlo rollout).

Presisi: Setara dengan 15.000 simulasi acak, tapi 15.000 kali lebih cepat

3. Integrasi Monte Carlo Tree Search

Mengintegrasikan kedua neural network ke dalam framework MCTS:

Policy Network memandu arah pencarian
Value Network mengevaluasi leaf node

Ini memberi AlphaGo baik "intuisi" (neural network) maupun "penalaran" (tree search).

Reaksi Komunitas Akademis

Setelah publikasi paper, komunitas akademis bereaksi dengan antusias:

"Ini adalah momen pendaratan di bulan bagi kecerdasan buatan." — Stuart Russell, Profesor UC Berkeley, penulis buku teks AI

"Saya awalnya berpikir masih butuh 10 tahun lagi, tidak menyangka secepat ini." — Martin Müller, ahli computer Go

Tapi ada juga yang skeptis:

"Fan Hui hanya profesional 2 dan, bukan pemain top yang sebenarnya. Biarkan AlphaGo bermain melawan Lee Sedol dulu."

DeepMind menerima tantangan ini.

Menantang Lee Sedol

Mengapa Lee Sedol?

Lee Sedol adalah pemain Korea, dianggap sebagai salah satu pemain terkuat dalam dekade terakhir:

Metrik	Data
Gelar Juara Dunia	18
Juara Internasional	32
Peringkat Dunia Tertinggi	#1
Gaya	"Jenius" "Kalkulator Ilahi"

Dengan memilih Lee Sedol, DeepMind menantang lawan manusia terkuat.

Hadiah 1 Juta Dolar

Google menyediakan hadiah 1 juta dolar untuk pertandingan ini:

Jika Lee Sedol menang: Hadiah untuk Lee Sedol
Jika AlphaGo menang: Hadiah disumbangkan ke UNICEF, pendidikan STEM, dan badan amal lainnya

Ini bukan hanya demonstrasi teknis, tapi juga acara olahraga yang menarik perhatian global.

Prediksi Sebelum Pertandingan

Sebelum pertandingan, sebagian besar pemain profesional memprediksi Lee Sedol akan menang dengan mudah:

"AlphaGo mungkin menang satu game, tapi dalam 5 game saya akan menang 5:0." — Lee Sedol, wawancara pra-pertandingan

"Komputer bermain kaku, pemain top bisa dengan mudah menemukan kelemahan." — Seorang profesional 9 dan

Tapi tim DeepMind punya pandangan berbeda. David Silver kemudian mengungkapkan:

"Dalam tes internal kami, kami sudah membuat AlphaGo bermain 500 game melawan versi yang menghadapi Fan Hui. Versi baru menang 499."

Maret 2016: Lima Game yang Mengubah Dunia

Game Pertama: Kejutan Dimulai

9 Maret 2016, Hotel Four Seasons, Seoul.

Lee Sedol bermain hitam lebih dulu, AlphaGo bermain putih. Setelah 3 jam 28 menit permainan, AlphaGo menang dengan resign di tengah game.

Ini adalah pertama kalinya pemain elite manusia secara resmi kalah dari AI.

Game Kedua: Langkah Ilahi

Game kedua melahirkan apa yang dikenal sebagai "Langkah Ilahi" pada langkah ke-37 — AlphaGo membuat shoulder hit di baris kelima yang semua pemain profesional pikir adalah kesalahan, tapi terbukti menjadi kunci kemenangan.

(Lihat detail di artikel berikutnya: Analisis Mendalam "Langkah Ilahi")

AlphaGo menang lagi.

Game Ketiga: 3:0

Di game ketiga, Lee Sedol mencoba pembukaan non-tradisional, tapi AlphaGo merespons dengan mudah. 3:0.

Dunia mulai menyadari: ini bukan kebetulan, AI benar-benar telah melampaui manusia.

Game Keempat: Serangan Balik Manusia

Di game keempat, Lee Sedol membuat apa yang dikenal sebagai "Langkah Ilahi" pada langkah ke-78 — wedge brilian yang menyebabkan kebingungan pada AlphaGo.

AlphaGo membuat langkah buruk yang jelas dalam beberapa langkah berikutnya dan akhirnya resign.

Kemenangan ini membuktikan: AI juga punya kelemahan. Lee Sedol menemukannya.

Game Kelima: Skor Akhir

Di game kelima, AlphaGo kembali normal dan mengakhiri pertandingan dengan kemenangan resign di tengah game.

Skor akhir: AlphaGo 4:1 Lee Sedol

Dampak dan Akibat

Perhatian Global

Dampak pertandingan ini jauh melampaui dunia Go:

200 juta orang di seluruh dunia menonton siaran langsung
The New York Times, The Economist dan media mainstream lainnya memberikan liputan luas
Harga saham Google naik selama pertandingan
"Kecerdasan Buatan" menjadi topik teknologi terpanas tahun itu

Dampak pada Dunia Go

Setelah pertandingan, sikap pemain profesional berubah dari "meremehkan" menjadi "menghormati":

"Kami dulu berpikir manusia memahami Go, sekarang kami menemukan kami hanya tahu sedikit." — Ke Jie, pemain Tiongkok, #1 dunia saat itu

Banyak pemain profesional mulai menggunakan AI untuk berlatih, dan cara bermain Go juga berubah sebagai hasilnya.

Dampak pada Bidang AI

AlphaGo membuktikan beberapa hal:

Deep learning dapat memecahkan masalah level ahli: Tidak hanya mengenali kucing dan anjing, tapi juga bermain Go
Reinforcement learning dapat melampaui manusia: Melalui self-play, AI dapat menemukan strategi yang tidak diketahui manusia
Neural network + pencarian adalah kombinasi yang kuat: Intuisi + penalaran = kecerdasan yang lebih kuat

Wawasan ini kemudian diterapkan pada:

AlphaFold: Prediksi struktur protein (pencapaian level Nobel Prize 2020)
AlphaZero: AI game umum
MuZero: Belajar tanpa aturan

Korespondensi Animasi

Konsep utama yang dibahas dalam artikel ini dan nomor animasi:

Nomor	Konsep	Korespondensi Fisika/Matematika
E7	Dari Nol	Self-organization
E5	Self-Play	Fixed point convergence
F8	Kemampuan Emergent	Phase transition
H4	Policy Gradient	Stochastic optimization

Bacaan Lanjutan

Artikel berikutnya: Tinjauan Pertandingan Kunci — Analisis lengkap pertandingan Fan Hui, Lee Sedol, Ke Jie
Detail teknis: Policy Network Detail — Bagaimana AlphaGo belajar bermain
Praktik langsung: Jalankan AI Go Pertama Anda dalam 30 Menit — Rasakan sendiri

Referensi

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
Dokumenter AlphaGo (2017), Sutradara Greg Kohs.

Pendirian DeepMind​

Demis Hassabis: Dari Prodigy ke Pelopor AI​

Prodigy Catur​

Game Designer​

Neuroscientist Kognitif​

Co-founder​

"Selesaikan Kecerdasan, Gunakan Kecerdasan untuk Menyelesaikan Segalanya"​

Terobosan Awal: Game Atari​

DQN: AI yang Belajar Bermain Game​

Mengapa Mulai dari Game?​

Akuisisi oleh Google​

Taruhan 500 Juta Dolar​

Syarat Akuisisi​

Strategi AI Google​

Memilih Go sebagai Target​

Mengapa Go?​

1. Go adalah "Holy Grail AI"​

2. Pelajaran dari Deep Blue​

3. Target Terukur​

4. Koneksi dengan Neuroscience​

Tim AlphaGo​

Tokoh Kunci​

David Silver: Peneliti Utama​

Aja Huang: Ahli Go​

Anggota Kunci Lainnya​

Kolaborasi Interdisipliner​

Publikasi di Nature​

Kejutan Rahasia​

Kontribusi Utama Paper​

1. Policy Network​

2. Value Network​

3. Integrasi Monte Carlo Tree Search​

Reaksi Komunitas Akademis​

Menantang Lee Sedol​

Mengapa Lee Sedol?​

Hadiah 1 Juta Dolar​

Prediksi Sebelum Pertandingan​

Maret 2016: Lima Game yang Mengubah Dunia​

Game Pertama: Kejutan Dimulai​

Game Kedua: Langkah Ilahi​

Game Ketiga: 3:0​

Game Keempat: Serangan Balik Manusia​

Game Kelima: Skor Akhir​

Dampak dan Akibat​

Perhatian Global​

Dampak pada Dunia Go​

Dampak pada Bidang AI​

Korespondensi Animasi​

Bacaan Lanjutan​

Referensi​