Era AlphaGo (2015-2017)

De 2015 a 2017, a serie AlphaGo do Google DeepMind criou um dos avancos mais iconicos da historia da inteligencia artificial. Em apenas dois anos, o Go passou de "jogo que a IA nao consegue conquistar" para "dominio onde a IA supera completamente os humanos".

Entre 2015 e 2017, o AlphaGo da DeepMind derrotou o profissional Fan Hui em 2015, venceu Lee Sedol por 4:1 em 2016 e, depois de uma sequencia de vitorias online como Master, derrotou Ke Jie em 2017; combinando redes neurais profundas com a busca em arvore de Monte Carlo, a IA superou completamente o nivel humano no Go.

Outubro de 2015: AlphaGo Derrota Fan Hui

A Partida Secreta Historica

Em outubro de 2015, em um escritorio em Londres, a DeepMind organizou uma partida secreta. O oponente era o campeao europeu de Go, jogador profissional 2-dan Fan Hui.

Resultado da partida: AlphaGo venceu por 5:0.

Esta foi a primeira vez na historia que um programa de computador derrotou um jogador profissional de Go em condicoes justas (sem handicap). A noticia foi oficialmente anunciada em janeiro de 2016, causando sensacao mundial imediata.

Tecnologia do AlphaGo Inicial

Esta versao do AlphaGo usou a combinacao de duas tecnologias-chave:

Redes Neurais Profundas: Atraves do aprendizado de centenas de milhares de partidas profissionais humanas, treinou uma "rede de valor" capaz de avaliar posicoes e uma "rede de politica" capaz de prever a proxima jogada
Monte Carlo Tree Search (MCTS): Utilizou a saida das redes neurais para guiar a busca, reduzindo drasticamente o numero de variacoes a calcular

Esta combinacao de "intuicao" mais "calculo" e exatamente a forma como jogadores humanos pensam -- so que a IA faz ambos melhor.

Marco de 2016: AlphaGo vs Lee Sedol

O Confronto do Seculo

De 9 a 15 de marco de 2016, AlphaGo enfrentou o jogador de elite mundial Lee Sedol em uma serie de cinco partidas em Seul. Esta partida atraiu mais de 200 milhoes de espectadores globalmente, tornando-se um dos eventos mais assistidos da historia da inteligencia artificial.

Resultados das Partidas

Jogo	Data	Resultado	Observacao
Jogo 1	9 de marco	AlphaGo vence	Vitoria no meio do jogo
Jogo 2	10 de marco	AlphaGo vence	Vitoria no meio do jogo, famosa "Jogada 37"
Jogo 3	12 de marco	AlphaGo vence	Vitoria no meio do jogo
Jogo 4	13 de marco	Lee Sedol vence	"Jogada de Deus" de Lee Sedol - Jogada 78
Jogo 5	15 de marco	AlphaGo vence	Vitoria no meio do jogo

Placar final: AlphaGo 4:1 Lee Sedol

Jogada 37 do Jogo 2: "Jogada de Deus"

No segundo jogo, AlphaGo fez uma jogada de "kata-tsuki" no lado direito que deixou todos os comentaristas perplexos.

Esta jogada parecia nao fazer sentido, nao correspondendo a nenhum joseki conhecido. Os comentaristas estimaram que a probabilidade de um humano fazer esta jogada era menor que uma em dez mil. No entanto, conforme a partida prosseguia, o significado profundo desta jogada foi se revelando -- exercia influencia em multiplas direcoes simultaneamente, com eficiencia extrema.

Esta jogada foi chamada de "Jogada de Deus", simbolizando que a IA havia desenvolvido conceitos de Go que os humanos nao conseguiam compreender.

Jogada 78 do Jogo 4: O Contra-ataque Humano

Apos perder tres jogos consecutivos, Lee Sedol fez uma jogada igualmente surpreendente no quarto jogo -- a Jogada 78, uma "penetracao".

Esta jogada foi um tesuji engenhoso que criou variacoes que o AlphaGo nao havia previsto em meio a uma luta complexa. O AlphaGo apresentou confusao obvia apos esta jogada, acabando por desistir.

Esta foi a unica vez que um humano derrotou o AlphaGo em competicao oficial. A jogada de Lee Sedol sera eternamente lembrada como simbolo da inteligencia humana.

Impacto da Partida

O impacto desta partida foi muito alem do mundo do Go:

Marco da inteligencia artificial: Provou que deep learning pode lidar com problemas extremamente complexos
Atencao nacional coreana: Estima-se que mais da metade da populacao coreana assistiu a partida
Nova era do Go: Jogadores profissionais comecaram a perceber que precisavam aprender com a IA
Onda de investimento em tecnologia: Impulsionou investimentos globais em pesquisa de IA

Janeiro de 2017: Master - 60 Vitorias Consecutivas

O Misterioso Jogador Online

Do final de 2016 ao inicio de 2017, uma conta chamada "Master" apareceu em sites de Go como Yike e Hufox. Derrotou todos os desafiantes a grande velocidade, incluindo jogadores de elite mundial como Ke Jie, Park Junghwan e Iyama Yuta.

Recorde final: 60 partidas, 60 vitorias (incluindo um empate por desconexao do oponente)

Apos o 60o jogo, a DeepMind anunciou oficialmente: Master era a nova versao do AlphaGo.

Novos Conceitos Demonstrados pelo Master

O estilo de jogo do Master era notavelmente diferente da versao que derrotou Lee Sedol um ano antes:

Calculo mais rapido: Cada jogada levava apenas algumas dezenas de segundos
Jogadas mais agressivas: Usava frequentemente jogadas consideradas "ruins" pela teoria tradicional
San-san como mainstream: Master frequentemente jogava san-san direto na abertura

Estas jogadas subverteram completamente centenas de anos de teoria acumulada do Go, e jogadores profissionais comecaram a imitar em massa as jogadas da IA.

Maio de 2017: AlphaGo vs Ke Jie

O Ultimo Desafio Humano

Em maio de 2017, em Wuzhen, China, AlphaGo enfrentou o numero um do ranking mundial Ke Jie em uma serie de tres partidas. Este foi considerado "o ultimo desafio humano".

Resultados das Partidas

Jogo	Data	Resultado	Observacao
Jogo 1	23 de maio	AlphaGo vence	Vitoria por 1/4 de ponto (menor margem)
Jogo 2	25 de maio	AlphaGo vence	Vitoria no meio do jogo
Jogo 3	27 de maio	AlphaGo vence	Vitoria no meio do jogo

Placar final: AlphaGo 3:0 Ke Jie

As Lagrimas de Ke Jie

Durante o segundo jogo, Ke Jie se ausentou por um momento e voltou com os olhos vermelhos. Apos a partida, ele disse:

"Ele e perfeito demais, nao vejo nenhuma esperanca de vitoria."

"Jogando com o AlphaGo, sinto seu amor pelo Go."

Apos esta partida, a DeepMind anunciou a aposentadoria do AlphaGo de competicoes publicas.

Outubro de 2017: Artigo AlphaZero

Superacao a partir do Zero

Em outubro de 2017, a DeepMind publicou o artigo AlphaZero, demonstrando conquistas ainda mais impressionantes.

O avanco do AlphaZero foi: Ele nao precisava de nenhum registro de partidas humanas.

O programa recebeu apenas as regras do Go e entao aprendeu atraves de auto-jogo. Partindo do "zero", AlphaZero em apenas 40 dias de auto-treinamento superou todas as versoes anteriores do AlphaGo.

Inteligencia Unificada

Ainda mais impressionante, o mesmo programa AlphaZero (apenas mudando as regras do jogo) atingiu nivel superior a todos os humanos e programas anteriores em tres jogos: Go, xadrez internacional e shogi japones.

Isto provou a generalidade do aprendizado por reforco profundo -- o mesmo algoritmo pode dominar jogos intelectuais completamente diferentes.

Analise Tecnica

Redes Neurais Profundas

A rede neural usada pelo AlphaGo tem duas partes principais:

Rede de Politica (Policy Network)

Entrada: Posicao atual do tabuleiro
Saida: Probabilidade de jogar em cada posicao
Funcao: Simula a "intuicao" humana, reduzindo rapidamente o espaco de busca

Rede de Valor (Value Network)

Entrada: Posicao atual do tabuleiro
Saida: Estimativa de taxa de vitoria da posicao atual
Funcao: Avalia se a posicao e boa ou ruim, substituindo a busca exaustiva tradicional

Monte Carlo Tree Search (MCTS)

MCTS e um algoritmo de busca que funciona atraves dos seguintes passos:

Selecao (Selection): A partir do no raiz, seleciona nos filhos segundo alguma estrategia
Expansao (Expansion): Adiciona novos nos filhos em nos folha
Simulacao (Simulation): A partir do novo no, executa simulacoes aleatorias ate o fim do jogo
Retropropagacao (Backpropagation): Propaga o resultado da simulacao para cima, atualizando as estatisticas de todos os nos no caminho

A inovacao do AlphaGo foi substituir as simulacoes aleatorias por redes neurais, aumentando muito a eficiencia da busca.

Aprendizado por Reforco

Do AlphaGo Lee ao AlphaZero, o aprendizado por reforco desempenhou papel cada vez mais importante:

AlphaGo Fan (derrotou Fan Hui): Principalmente dependente de treinamento com partidas humanas
AlphaGo Lee (derrotou Lee Sedol): Partidas humanas + auto-jogo
AlphaGo Master (60 vitorias consecutivas): Auto-jogo intensificado
AlphaZero: Auto-jogo completo, sem necessidade de partidas humanas

Este processo evolutivo mostra que a IA pode eventualmente atingir nivel super-humano dependendo completamente de auto-aprendizado.

A era AlphaGo terminou em 2017, mas a tecnologia e conceitos que criou continuam influenciando o Go e o campo da inteligencia artificial. Na era KataGo seguinte, estas tecnologias chegaram aos computadores e celulares de todos os entusiastas de Go.

Proximo artigo: Era KataGo

Outubro de 2015: AlphaGo Derrota Fan Hui​

A Partida Secreta Historica​

Tecnologia do AlphaGo Inicial​

Marco de 2016: AlphaGo vs Lee Sedol​

O Confronto do Seculo​

Resultados das Partidas​

Jogada 37 do Jogo 2: "Jogada de Deus"​

Jogada 78 do Jogo 4: O Contra-ataque Humano​

Impacto da Partida​

Janeiro de 2017: Master - 60 Vitorias Consecutivas​

O Misterioso Jogador Online​

Novos Conceitos Demonstrados pelo Master​

Maio de 2017: AlphaGo vs Ke Jie​

O Ultimo Desafio Humano​

Resultados das Partidas​

As Lagrimas de Ke Jie​

Outubro de 2017: Artigo AlphaZero​

Superacao a partir do Zero​

Inteligencia Unificada​

Analise Tecnica​

Redes Neurais Profundas​

Monte Carlo Tree Search (MCTS)​

Aprendizado por Reforco​

Outubro de 2015: AlphaGo Derrota Fan Hui

A Partida Secreta Historica

Tecnologia do AlphaGo Inicial

Marco de 2016: AlphaGo vs Lee Sedol

O Confronto do Seculo

Resultados das Partidas

Jogada 37 do Jogo 2: "Jogada de Deus"

Jogada 78 do Jogo 4: O Contra-ataque Humano

Impacto da Partida

Janeiro de 2017: Master - 60 Vitorias Consecutivas

O Misterioso Jogador Online

Novos Conceitos Demonstrados pelo Master

Maio de 2017: AlphaGo vs Ke Jie

O Ultimo Desafio Humano

Resultados das Partidas

As Lagrimas de Ke Jie

Outubro de 2017: Artigo AlphaZero

Superacao a partir do Zero

Inteligencia Unificada

Analise Tecnica

Redes Neurais Profundas

Monte Carlo Tree Search (MCTS)

Aprendizado por Reforco