Saltar al contenido principal

Era AlphaGo (2015-2017)

De 2015 a 2017, la serie de programas AlphaGo de Google DeepMind creo uno de los avances mas emblematicos en la historia de la inteligencia artificial. En solo dos anos, el Go paso de ser "un juego que la IA no puede conquistar" a ser "un campo donde la IA supera completamente a los humanos".

Octubre 2015: AlphaGo derrota a Fan Hui

Partida historica secreta

En octubre de 2015, en una oficina de Londres, DeepMind arreglo una partida secreta. El oponente era el campeon europeo de Go, profesional 2-dan Fan Hui.

Resultado del partido: AlphaGo gano 5:0.

Esta es la primera vez en la historia que un programa de computadora derrota a un jugador profesional de Go en condiciones justas (sin handicap). La noticia fue anunciada oficialmente en enero de 2016, causando inmediatamente sensacion mundial.

Tecnologia del primer AlphaGo

Esta version de AlphaGo uso la combinacion de dos tecnologias clave:

  1. Red neuronal profunda: A traves del aprendizaje de cientos de miles de partidas profesionales humanas, entreno una "red de valor" capaz de evaluar posiciones y una "red de politica" capaz de predecir la siguiente jugada

  2. Busqueda de Arbol Monte Carlo (MCTS): Usando la salida de la red neuronal para guiar la busqueda, reduciendo enormemente el numero de variaciones a calcular

Esta combinacion de "intuicion" y "calculo" es precisamente la forma en que piensan los jugadores humanos - solo que la IA lo hace mejor en ambos aspectos.

Marzo 2016: AlphaGo vs Lee Sedol

Duelo del siglo

Del 9 al 15 de marzo de 2016, AlphaGo y el mejor jugador del mundo Lee Sedol tuvieron un match de cinco partidas en Seul. Este partido atrajo a mas de 200 millones de espectadores en todo el mundo, convirtiendose en uno de los eventos mas seguidos en la historia de la inteligencia artificial.

Resultados del match

PartidaFechaResultadoNotas
Partida 19 de marzoAlphaGo ganaVictoria en medio juego
Partida 210 de marzoAlphaGo ganaVictoria en medio juego, aparece el famoso "Movimiento 37"
Partida 312 de marzoAlphaGo ganaVictoria en medio juego
Partida 413 de marzoLee Sedol gana"Jugada divina" de Lee Sedol movimiento 78
Partida 515 de marzoAlphaGo ganaVictoria en medio juego

Resultado final: AlphaGo 4:1 Lee Sedol

Partida 2 Movimiento 37: "Jugada divina"

En la segunda partida, AlphaGo jugo en el lado derecho una "aproximacion por el hombro" que dejo perplejos a todos los jugadores que observaban.

Esta jugada parecia no tener sentido, no correspondia a ningun joseki conocido por humanos. Los comentaristas estimaron que la probabilidad de que un humano jugara esta jugada era menos de una en diez mil. Sin embargo, a medida que la partida progresaba, el significado profundo de esta jugada se fue revelando gradualmente - ejercia influencia en multiples direcciones simultaneamente, con altisima eficiencia.

Esta jugada fue llamada "Jugada Divina", simbolizando que la IA ya habia desarrollado conceptos de Go que los humanos no pueden entender.

Partida 4 Movimiento 78: El contraataque humano

Despues de perder tres partidas consecutivas, Lee Sedol jugo una jugada igualmente asombrosa en la cuarta partida - el movimiento 78 "penetracion".

Esta jugada fue un tesuji ingenioso, creando una variacion en la complicada pelea que AlphaGo no pudo prever. AlphaGo mostro confusion obvia despues de esta jugada, finalmente se rindio.

Esta es la unica vez que un humano derroto a AlphaGo en un partido oficial, esta jugada de Lee Sedol sera recordada para siempre como simbolo de la sabiduria humana.

Impacto del match

El impacto de este match fue mucho mas alla del mundo del Go:

  • Hito de inteligencia artificial: Demostro que el aprendizaje profundo puede manejar problemas extremadamente complejos
  • Atencion nacional de Corea: Segun estadisticas, mas de la mitad de la poblacion coreana vio el match
  • Nueva era del Go: Los jugadores profesionales comenzaron a darse cuenta de que debian aprender de la IA
  • Fiebre de inversion en tecnologia: Impulso la inversion global en investigacion de IA

Enero 2017: Master 60 victorias consecutivas

El misterioso jugador en linea

De finales de 2016 a principios de 2017, una cuenta llamada "Master" aparecio en sitios de Go en linea como Tygem y Fox. Derroto a todos los retadores a velocidad extrema, incluyendo a los mejores jugadores del mundo como Ke Jie, Park Junghwan, Iyama Yuta y otros.

Record final: 60 partidas, 60 victorias (incluyendo una partida considerada empate porque el oponente se desconecto)

Despues de la partida 60, DeepMind anuncio oficialmente: Master es la nueva version de AlphaGo.

Nuevos conceptos mostrados por Master

El estilo de Master era obviamente diferente a la version que derroto a Lee Sedol un ano antes:

  • Velocidad de calculo mas rapida: Solo decenas de segundos por jugada
  • Jugadas mas agresivas: Uso frecuente de jugadas consideradas "malas" por la teoria tradicional
  • San-san se convirtio en mainstream: Master frecuentemente invadia san-san directamente en la apertura

Estas jugadas revolucionaron completamente la teoria del Go acumulada por humanos durante cientos de anos, los jugadores profesionales comenzaron a imitar masivamente las jugadas de la IA.

Mayo 2017: AlphaGo vs Ke Jie

El ultimo desafio de la humanidad

En mayo de 2017, en Wuzhen, China, AlphaGo tuvo un match de tres partidas contra el entonces numero uno del mundo Ke Jie. Esto fue visto como "el ultimo desafio de la humanidad".

Resultados del match

PartidaFechaResultadoNotas
Partida 123 de mayoAlphaGo ganaVictoria por 1/4 de punto (diferencia minima)
Partida 225 de mayoAlphaGo ganaVictoria en medio juego
Partida 327 de mayoAlphaGo ganaVictoria en medio juego

Resultado final: AlphaGo 3:0 Ke Jie

Las lagrimas de Ke Jie

Durante la segunda partida, Ke Jie se levanto de su asiento por un momento, cuando regreso tenia los ojos enrojecidos. Despues del partido dijo:

"Es demasiado perfecto, no veo ninguna esperanza de victoria."

"Jugando con AlphaGo, siento su amor por el Go."

Despues de este match, DeepMind anuncio que AlphaGo se retiraba y no participaria mas en partidas publicas.

Octubre 2017: Paper de AlphaZero

Superacion desde cero

En octubre de 2017, DeepMind publico el paper de AlphaZero, mostrando logros aun mas asombrosos.

El avance de AlphaZero fue: No necesita partidas humanas en absoluto.

Al programa solo se le dijeron las reglas del Go, y luego aprendio a traves de jugar contra si mismo. Comenzando desde "cero", AlphaZero en solo 40 dias de autoentrenamiento supero todas las versiones anteriores de AlphaGo.

Inteligencia unificada

Aun mas asombroso, el mismo programa AlphaZero (solo cambiando las reglas del juego) logro niveles superiores a todos los humanos y programas mas fuertes anteriores en Go, ajedrez y shogi.

Esto demostro la generalidad del aprendizaje profundo por refuerzo - el mismo algoritmo puede dominar juegos de inteligencia completamente diferentes.

Analisis tecnico

Red neuronal profunda

La red neuronal usada por AlphaGo tiene dos partes principales:

Red de Politica (Policy Network)

  • Entrada: Posicion actual del tablero
  • Salida: Probabilidad de jugar en cada posicion
  • Funcion: Simular la "intuicion" humana, reducir rapidamente el rango de busqueda

Red de Valor (Value Network)

  • Entrada: Posicion actual del tablero
  • Salida: Estimacion de tasa de victoria de la posicion actual
  • Funcion: Evaluar si la posicion es buena o mala, reemplazando la busqueda exhaustiva tradicional

Busqueda de Arbol Monte Carlo (MCTS)

MCTS es un algoritmo de busqueda que funciona a traves de los siguientes pasos:

  1. Seleccion: Desde el nodo raiz, seleccionar nodos hijos segun cierta estrategia
  2. Expansion: Agregar nuevos nodos hijos en los nodos hoja
  3. Simulacion: Desde el nuevo nodo, realizar simulacion aleatoria hasta el final del juego
  4. Retropropagacion: Propagar el resultado de la simulacion hacia arriba, actualizando las estadisticas de todos los nodos en el camino

La innovacion de AlphaGo fue usar redes neuronales para reemplazar la simulacion aleatoria, mejorando enormemente la eficiencia de busqueda.

Aprendizaje por refuerzo

De AlphaGo Lee a AlphaZero, el aprendizaje por refuerzo jugo un papel cada vez mas importante:

  • AlphaGo Fan (derroto a Fan Hui): Principalmente dependio del entrenamiento con partidas humanas
  • AlphaGo Lee (derroto a Lee Sedol): Partidas humanas + juego contra si mismo
  • AlphaGo Master (60 victorias consecutivas): Entrenamiento mejorado de juego contra si mismo
  • AlphaZero: Juego contra si mismo completamente, sin partidas humanas

Este proceso de evolucion muestra que la IA finalmente puede alcanzar nivel sobrehumano dependiendo completamente del autoaprendizaje.


La era AlphaGo termino en 2017, pero la tecnologia y conceptos que abrio continuan influyendo en el campo del Go y la inteligencia artificial. La siguiente era KataGo llevo estas tecnologias a la computadora y telefono de cada aficionado al Go.

Siguiente: Era KataGo