Era AlphaGo (2015-2017)
De 2015 a 2017, a serie AlphaGo do Google DeepMind criou um dos avancos mais iconicos da historia da inteligencia artificial. Em apenas dois anos, o Go passou de "jogo que a IA nao consegue conquistar" para "dominio onde a IA supera completamente os humanos".
Outubro de 2015: AlphaGo Derrota Fan Hui
A Partida Secreta Historica
Em outubro de 2015, em um escritorio em Londres, a DeepMind organizou uma partida secreta. O oponente era o campeao europeu de Go, jogador profissional 2-dan Fan Hui.
Resultado da partida: AlphaGo venceu por 5:0.
Esta foi a primeira vez na historia que um programa de computador derrotou um jogador profissional de Go em condicoes justas (sem handicap). A noticia foi oficialmente anunciada em janeiro de 2016, causando sensacao mundial imediata.
Tecnologia do AlphaGo Inicial
Esta versao do AlphaGo usou a combinacao de duas tecnologias-chave:
-
Redes Neurais Profundas: Atraves do aprendizado de centenas de milhares de partidas profissionais humanas, treinou uma "rede de valor" capaz de avaliar posicoes e uma "rede de politica" capaz de prever a proxima jogada
-
Monte Carlo Tree Search (MCTS): Utilizou a saida das redes neurais para guiar a busca, reduzindo drasticamente o numero de variacoes a calcular
Esta combinacao de "intuicao" mais "calculo" e exatamente a forma como jogadores humanos pensam -- so que a IA faz ambos melhor.
Marco de 2016: AlphaGo vs Lee Sedol
O Confronto do Seculo
De 9 a 15 de marco de 2016, AlphaGo enfrentou o jogador de elite mundial Lee Sedol em uma serie de cinco partidas em Seul. Esta partida atraiu mais de 200 milhoes de espectadores globalmente, tornando-se um dos eventos mais assistidos da historia da inteligencia artificial.
Resultados das Partidas
| Jogo | Data | Resultado | Observacao |
|---|---|---|---|
| Jogo 1 | 9 de marco | AlphaGo vence | Vitoria no meio do jogo |
| Jogo 2 | 10 de marco | AlphaGo vence | Vitoria no meio do jogo, famosa "Jogada 37" |
| Jogo 3 | 12 de marco | AlphaGo vence | Vitoria no meio do jogo |
| Jogo 4 | 13 de marco | Lee Sedol vence | "Jogada de Deus" de Lee Sedol - Jogada 78 |
| Jogo 5 | 15 de marco | AlphaGo vence | Vitoria no meio do jogo |
Placar final: AlphaGo 4:1 Lee Sedol
Jogada 37 do Jogo 2: "Jogada de Deus"
No segundo jogo, AlphaGo fez uma jogada de "kata-tsuki" no lado direito que deixou todos os comentaristas perplexos.
Esta jogada parecia nao fazer sentido, nao correspondendo a nenhum joseki conhecido. Os comentaristas estimaram que a probabilidade de um humano fazer esta jogada era menor que uma em dez mil. No entanto, conforme a partida prosseguia, o significado profundo desta jogada foi se revelando -- exercia influencia em multiplas direcoes simultaneamente, com eficiencia extrema.
Esta jogada foi chamada de "Jogada de Deus", simbolizando que a IA havia desenvolvido conceitos de Go que os humanos nao conseguiam compreender.
Jogada 78 do Jogo 4: O Contra-ataque Humano
Apos perder tres jogos consecutivos, Lee Sedol fez uma jogada igualmente surpreendente no quarto jogo -- a Jogada 78, uma "penetracao".
Esta jogada foi um tesuji engenhoso que criou variacoes que o AlphaGo nao havia previsto em meio a uma luta complexa. O AlphaGo apresentou confusao obvia apos esta jogada, acabando por desistir.
Esta foi a unica vez que um humano derrotou o AlphaGo em competicao oficial. A jogada de Lee Sedol sera eternamente lembrada como simbolo da inteligencia humana.
Impacto da Partida
O impacto desta partida foi muito alem do mundo do Go:
- Marco da inteligencia artificial: Provou que deep learning pode lidar com problemas extremamente complexos
- Atencao nacional coreana: Estima-se que mais da metade da populacao coreana assistiu a partida
- Nova era do Go: Jogadores profissionais comecaram a perceber que precisavam aprender com a IA
- Onda de investimento em tecnologia: Impulsionou investimentos globais em pesquisa de IA
Janeiro de 2017: Master - 60 Vitorias Consecutivas
O Misterioso Jogador Online
Do final de 2016 ao inicio de 2017, uma conta chamada "Master" apareceu em sites de Go como Yike e Hufox. Derrotou todos os desafiantes a grande velocidade, incluindo jogadores de elite mundial como Ke Jie, Park Junghwan e Iyama Yuta.
Recorde final: 60 partidas, 60 vitorias (incluindo um empate por desconexao do oponente)
Apos o 60o jogo, a DeepMind anunciou oficialmente: Master era a nova versao do AlphaGo.
Novos Conceitos Demonstrados pelo Master
O estilo de jogo do Master era notavelmente diferente da versao que derrotou Lee Sedol um ano antes:
- Calculo mais rapido: Cada jogada levava apenas algumas dezenas de segundos
- Jogadas mais agressivas: Usava frequentemente jogadas consideradas "ruins" pela teoria tradicional
- San-san como mainstream: Master frequentemente jogava san-san direto na abertura
Estas jogadas subverteram completamente centenas de anos de teoria acumulada do Go, e jogadores profissionais comecaram a imitar em massa as jogadas da IA.
Maio de 2017: AlphaGo vs Ke Jie
O Ultimo Desafio Humano
Em maio de 2017, em Wuzhen, China, AlphaGo enfrentou o numero um do ranking mundial Ke Jie em uma serie de tres partidas. Este foi considerado "o ultimo desafio humano".
Resultados das Partidas
| Jogo | Data | Resultado | Observacao |
|---|---|---|---|
| Jogo 1 | 23 de maio | AlphaGo vence | Vitoria por 1/4 de ponto (menor margem) |
| Jogo 2 | 25 de maio | AlphaGo vence | Vitoria no meio do jogo |
| Jogo 3 | 27 de maio | AlphaGo vence | Vitoria no meio do jogo |
Placar final: AlphaGo 3:0 Ke Jie
As Lagrimas de Ke Jie
Durante o segundo jogo, Ke Jie se ausentou por um momento e voltou com os olhos vermelhos. Apos a partida, ele disse:
"Ele e perfeito demais, nao vejo nenhuma esperanca de vitoria."
"Jogando com o AlphaGo, sinto seu amor pelo Go."
Apos esta partida, a DeepMind anunciou a aposentadoria do AlphaGo de competicoes publicas.
Outubro de 2017: Artigo AlphaZero
Superacao a partir do Zero
Em outubro de 2017, a DeepMind publicou o artigo AlphaZero, demonstrando conquistas ainda mais impressionantes.
O avanco do AlphaZero foi: Ele nao precisava de nenhum registro de partidas humanas.
O programa recebeu apenas as regras do Go e entao aprendeu atraves de auto-jogo. Partindo do "zero", AlphaZero em apenas 40 dias de auto-treinamento superou todas as versoes anteriores do AlphaGo.
Inteligencia Unificada
Ainda mais impressionante, o mesmo programa AlphaZero (apenas mudando as regras do jogo) atingiu nivel superior a todos os humanos e programas anteriores em tres jogos: Go, xadrez internacional e shogi japones.
Isto provou a generalidade do aprendizado por reforco profundo -- o mesmo algoritmo pode dominar jogos intelectuais completamente diferentes.
Analise Tecnica
Redes Neurais Profundas
A rede neural usada pelo AlphaGo tem duas partes principais:
Rede de Politica (Policy Network)
- Entrada: Posicao atual do tabuleiro
- Saida: Probabilidade de jogar em cada posicao
- Funcao: Simula a "intuicao" humana, reduzindo rapidamente o espaco de busca
Rede de Valor (Value Network)
- Entrada: Posicao atual do tabuleiro
- Saida: Estimativa de taxa de vitoria da posicao atual
- Funcao: Avalia se a posicao e boa ou ruim, substituindo a busca exaustiva tradicional
Monte Carlo Tree Search (MCTS)
MCTS e um algoritmo de busca que funciona atraves dos seguintes passos:
- Selecao (Selection): A partir do no raiz, seleciona nos filhos segundo alguma estrategia
- Expansao (Expansion): Adiciona novos nos filhos em nos folha
- Simulacao (Simulation): A partir do novo no, executa simulacoes aleatorias ate o fim do jogo
- Retropropagacao (Backpropagation): Propaga o resultado da simulacao para cima, atualizando as estatisticas de todos os nos no caminho
A inovacao do AlphaGo foi substituir as simulacoes aleatorias por redes neurais, aumentando muito a eficiencia da busca.
Aprendizado por Reforco
Do AlphaGo Lee ao AlphaZero, o aprendizado por reforco desempenhou papel cada vez mais importante:
- AlphaGo Fan (derrotou Fan Hui): Principalmente dependente de treinamento com partidas humanas
- AlphaGo Lee (derrotou Lee Sedol): Partidas humanas + auto-jogo
- AlphaGo Master (60 vitorias consecutivas): Auto-jogo intensificado
- AlphaZero: Auto-jogo completo, sem necessidade de partidas humanas
Este processo evolutivo mostra que a IA pode eventualmente atingir nivel super-humano dependendo completamente de auto-aprendizado.
A era AlphaGo terminou em 2017, mas a tecnologia e conceitos que criou continuam influenciando o Go e o campo da inteligencia artificial. Na era KataGo seguinte, estas tecnologias chegaram aos computadores e celulares de todos os entusiastas de Go.
Proximo artigo: Era KataGo