Era AlphaGo (2015-2017)

Tahun 2015 hingga 2017, seri program AlphaGo dari Google DeepMind menciptakan salah satu terobosan paling ikonik dalam sejarah kecerdasan buatan. Dalam waktu singkat dua tahun, Go berubah dari "permainan yang tidak bisa ditaklukkan kecerdasan buatan" menjadi "bidang di mana AI sepenuhnya melampaui manusia".

Antara tahun 2015 hingga 2017, AlphaGo dari DeepMind pertama mengalahkan pemain profesional Fan Hui pada 2015, lalu mengalahkan Lee Sedol 4:1 pada 2016, kemudian meraih kemenangan beruntun online sebagai Master dan mengalahkan Ke Jie pada 2017. Dengan menggabungkan deep neural network dan Monte Carlo Tree Search, AI sepenuhnya melampaui level Go manusia.

Oktober 2015: AlphaGo Mengalahkan Fan Hui

Pertandingan Rahasia Bersejarah

Oktober 2015, di sebuah kantor di London, DeepMind mengatur pertandingan rahasia. Lawannya adalah juara Go Eropa, pemain profesional 2-dan Fan Hui.

Hasil pertandingan: AlphaGo menang telak 5:0.

Ini adalah pertama kalinya dalam sejarah ada program komputer yang mengalahkan pemain Go profesional dalam kondisi adil (tanpa batu handicap). Berita ini resmi diumumkan pada Januari 2016, segera menghebohkan dunia.

Teknologi AlphaGo Generasi Pertama

Versi AlphaGo ini menggunakan kombinasi dua teknologi kunci:

Deep Neural Network: Melalui pembelajaran ratusan ribu permainan profesional manusia, melatih "value network" yang dapat mengevaluasi posisi dan "policy network" yang dapat memprediksi langkah berikutnya
Monte Carlo Tree Search (MCTS): Menggunakan output neural network untuk memandu pencarian, sangat mengurangi jumlah variasi yang perlu dihitung

Kombinasi "intuisi" dan "perhitungan" inilah cara pemain manusia berpikir - hanya saja AI melakukan keduanya dengan lebih baik.

Maret 2016: AlphaGo vs Lee Sedol

Pertarungan Abad Ini

9-15 Maret 2016, AlphaGo bertanding lima permainan dengan pemain top dunia Lee Sedol di Seoul. Pertandingan ini menarik lebih dari 200 juta penonton global, menjadi salah satu acara paling diperhatikan dalam sejarah kecerdasan buatan.

Hasil Pertandingan

Permainan	Tanggal	Hasil	Catatan
Permainan 1	9 Maret	AlphaGo menang	Menang tengah permainan
Permainan 2	10 Maret	AlphaGo menang	Menang tengah permainan, muncul "Langkah 37" yang terkenal
Permainan 3	12 Maret	AlphaGo menang	Menang tengah permainan
Permainan 4	13 Maret	Lee Sedol menang	"Langkah Tuhan" Lee Sedol di langkah 78
Permainan 5	15 Maret	AlphaGo menang	Menang tengah permainan

Skor akhir: AlphaGo 4:1 Lee Sedol

Langkah 37 Permainan 2: "Langkah Tuhan"

Di permainan kedua, AlphaGo memainkan "bahu tekan" di sisi kanan yang membuat semua pemain yang menonton kebingungan.

Langkah ini terlihat sama sekali tidak masuk akal, tidak sesuai dengan joseki apapun yang diketahui manusia. Komentator memperkirakan kemungkinan manusia memainkan langkah ini kurang dari satu dalam sepuluh ribu. Namun, seiring permainan berlanjut, makna mendalam langkah ini secara bertahap terungkap - ia secara bersamaan memberikan pengaruh ke berbagai arah, efisiensinya sangat tinggi.

Langkah ini dijuluki "Langkah Tuhan", melambangkan bahwa AI telah mengembangkan konsep Go yang tidak dapat dipahami manusia.

Langkah 78 Permainan 4: Serangan Balik Manusia

Setelah kalah tiga permainan berturut-turut, Lee Sedol di permainan keempat memainkan langkah yang sama mengejutkan - langkah 78 "memasukkan".

Langkah ini adalah tesuji yang cerdik, dalam pertempuran rumit menciptakan variasi yang tidak dapat diprediksi AlphaGo. AlphaGo setelah langkah ini menunjukkan kebingungan yang jelas, akhirnya menyerah.

Ini adalah satu-satunya kali manusia mengalahkan AlphaGo dalam pertandingan resmi, langkah Lee Sedol ini selamanya dikenang sebagai simbol kecerdasan manusia.

Dampak Pertandingan

Dampak pertandingan ini jauh melampaui dunia Go:

Tonggak kecerdasan buatan: Membuktikan deep learning dapat menangani masalah yang sangat kompleks
Perhatian seluruh rakyat Korea: Menurut statistik, lebih dari setengah populasi Korea menonton pertandingan
Era baru Go: Pemain profesional mulai menyadari harus belajar dari AI
Ledakan investasi teknologi: Mendorong investasi global dalam penelitian AI

Januari 2017: Master 60 Kemenangan Berturut-turut

Pemain Online Misterius

Akhir 2016 hingga awal 2017, sebuah akun bernama "Master" muncul di situs Go online seperti Yike dan Yehu. Ia mengalahkan semua penantang dengan kecepatan sangat cepat, termasuk pemain top dunia seperti Ke Jie, Park Junghwan, Iyama Yuta.

Rekor akhir: 60 pertandingan 60 kemenangan (termasuk satu permainan seri karena lawan terputus)

Setelah permainan ke-60 selesai, DeepMind resmi mengumumkan: Master adalah versi baru AlphaGo.

Konsep Baru yang Ditunjukkan Master

Gaya bermain Master jelas berbeda dari versi yang mengalahkan Lee Sedol setahun sebelumnya:

Kecepatan perhitungan lebih cepat: Setiap langkah hanya butuh puluhan detik
Cara bermain lebih agresif: Sering menggunakan cara bermain yang teori tradisional anggap "tidak bagus"
Bermain san-san menjadi arus utama: Master sering bermain san-san langsung di pembukaan

Cara bermain ini secara total menumbangkan teori Go yang diakumulasi manusia selama ratusan tahun, pemain profesional mulai banyak meniru cara bermain AI.

Mei 2017: AlphaGo vs Ke Jie

Tantangan Terakhir Manusia

Mei 2017, di Wuzhen, Tiongkok, AlphaGo bertanding tiga permainan dengan Ke Jie yang saat itu menduduki peringkat satu dunia. Ini dipandang sebagai "tantangan terakhir manusia".

Hasil Pertandingan

Permainan	Tanggal	Hasil	Catatan
Permainan 1	23 Mei	AlphaGo menang	Menang 1/4 zi (selisih terkecil)
Permainan 2	25 Mei	AlphaGo menang	Menang tengah permainan
Permainan 3	27 Mei	AlphaGo menang	Menang tengah permainan

Skor akhir: AlphaGo 3:0 Ke Jie

Air Mata Ke Jie

Di tengah permainan kedua, Ke Jie pernah meninggalkan tempat duduk, saat kembali matanya memerah. Setelah pertandingan dia berkata:

"Dia terlalu sempurna, saya tidak melihat harapan kemenangan apapun."

"Bermain dengan AlphaGo, saya merasakan kecintaannya pada Go."

Setelah pertandingan ini selesai, DeepMind mengumumkan AlphaGo pensiun, tidak lagi berpartisipasi dalam pertandingan terbuka.

Oktober 2017: Makalah AlphaZero

Melampaui dari Nol

Oktober 2017, DeepMind mempublikasikan makalah AlphaZero, menunjukkan pencapaian yang lebih menakjubkan.

Terobosan AlphaZero adalah: sama sekali tidak memerlukan catatan permainan manusia.

Program hanya diberitahu aturan Go, kemudian belajar melalui bermain sendiri. Dari "nol", AlphaZero hanya dengan 40 hari pelatihan diri, melampaui semua versi AlphaGo sebelumnya.

Kecerdasan Universal

Yang lebih mengejutkan, program AlphaZero yang sama (hanya mengubah aturan permainan) dalam tiga permainan Go, catur internasional, dan shogi Jepang, semuanya mencapai level yang melampaui semua manusia dan program terkuat sebelumnya.

Ini membuktikan universalitas deep reinforcement learning - algoritma yang sama dapat menguasai permainan kecerdasan yang sama sekali berbeda.

Analisis Teknis

Deep Neural Network

Neural network yang digunakan AlphaGo memiliki dua bagian utama:

Policy Network

Input: Posisi papan saat ini
Output: Probabilitas bermain di setiap posisi
Fungsi: Mensimulasikan "intuisi" manusia, dengan cepat mempersempit ruang pencarian

Value Network

Input: Posisi papan saat ini
Output: Perkiraan tingkat kemenangan posisi saat ini
Fungsi: Mengevaluasi baik-buruk posisi, menggantikan pencarian brute-force tradisional

Monte Carlo Tree Search (MCTS)

MCTS adalah algoritma pencarian, bekerja melalui langkah-langkah berikut:

Selection: Dari root node, pilih child node berdasarkan strategi tertentu
Expansion: Tambah child node baru di leaf node
Simulation: Dari node baru, lakukan simulasi acak sampai permainan selesai
Backpropagation: Kirim hasil simulasi ke atas, perbarui data statistik semua node di jalur

Inovasi AlphaGo adalah menggunakan neural network menggantikan simulasi acak, sangat meningkatkan efisiensi pencarian.

Reinforcement Learning

Dari AlphaGo Lee ke AlphaZero, reinforcement learning memainkan peran yang semakin penting:

AlphaGo Fan (mengalahkan Fan Hui): Terutama bergantung pada pelatihan catatan permainan manusia
AlphaGo Lee (mengalahkan Lee Sedol): Catatan permainan manusia + bermain sendiri
AlphaGo Master (60 kemenangan berturut-turut): Pelatihan bermain sendiri yang ditingkatkan
AlphaZero: Sepenuhnya bermain sendiri, tidak memerlukan catatan permainan manusia

Proses evolusi ini menunjukkan, AI akhirnya dapat sepenuhnya bergantung pada pembelajaran diri untuk mencapai level super manusia.

Era AlphaGo berakhir pada tahun 2017, tetapi teknologi dan konsep yang dibukanya terus mempengaruhi bidang Go dan kecerdasan buatan. Era KataGo selanjutnya membuat teknologi ini masuk ke komputer dan ponsel setiap penggemar Go.

Selanjutnya: Era KataGo

Oktober 2015: AlphaGo Mengalahkan Fan Hui​

Pertandingan Rahasia Bersejarah​

Teknologi AlphaGo Generasi Pertama​

Maret 2016: AlphaGo vs Lee Sedol​

Pertarungan Abad Ini​

Hasil Pertandingan​

Langkah 37 Permainan 2: "Langkah Tuhan"​

Langkah 78 Permainan 4: Serangan Balik Manusia​

Dampak Pertandingan​

Januari 2017: Master 60 Kemenangan Berturut-turut​

Pemain Online Misterius​

Konsep Baru yang Ditunjukkan Master​

Mei 2017: AlphaGo vs Ke Jie​

Tantangan Terakhir Manusia​

Hasil Pertandingan​

Air Mata Ke Jie​

Oktober 2017: Makalah AlphaZero​

Melampaui dari Nol​

Kecerdasan Universal​

Analisis Teknis​

Deep Neural Network​

Monte Carlo Tree Search (MCTS)​

Reinforcement Learning​

Oktober 2015: AlphaGo Mengalahkan Fan Hui

Pertandingan Rahasia Bersejarah

Teknologi AlphaGo Generasi Pertama

Maret 2016: AlphaGo vs Lee Sedol

Pertarungan Abad Ini

Hasil Pertandingan

Langkah 37 Permainan 2: "Langkah Tuhan"

Langkah 78 Permainan 4: Serangan Balik Manusia

Dampak Pertandingan

Januari 2017: Master 60 Kemenangan Berturut-turut

Pemain Online Misterius

Konsep Baru yang Ditunjukkan Master

Mei 2017: AlphaGo vs Ke Jie

Tantangan Terakhir Manusia

Hasil Pertandingan

Air Mata Ke Jie

Oktober 2017: Makalah AlphaZero

Melampaui dari Nol

Kecerdasan Universal

Analisis Teknis

Deep Neural Network

Monte Carlo Tree Search (MCTS)

Reinforcement Learning