O Nascimento do AlphaGo

Em março de 2016, quando o AlphaGo derrotou Lee Sedol por 4:1, o mundo inteiro perguntou: como nasceu este programa que mudou a história da inteligência artificial?

A resposta começa com o sonho de um prodígio do xadrez.

A Fundação da DeepMind

Demis Hassabis: De Prodígio a Pioneiro da IA

Demis Hassabis é o cofundador e CEO da DeepMind. Sua trajetória de vida parece ter sido preparada para criar o AlphaGo.

Prodígio do Xadrez

Nascido em Londres em 1975, Hassabis aprendeu a jogar xadrez aos 4 anos e alcançou o nível de mestre de xadrez (Elo 2300+) aos 13 anos, sendo o segundo mais jovem a alcançar esse nível na história britânica.

Essa experiência lhe deu uma compreensão profunda de:

Jogos de tabuleiro são um teste para a inteligência: Jogar xadrez requer planejamento, intuição e reconhecimento de padrões
A natureza da inteligência humana: Como os jogadores encontram boas jogadas em meio a enormes possibilidades?
As limitações dos computadores: A vitória do Deep Blue sobre Kasparov em 1997 foi baseada em busca por força bruta, não em verdadeira "compreensão"

Designer de Jogos

Aos 17 anos, Hassabis juntou-se à Bullfrog Productions (empresa de jogos fundada por Peter Molyneux, criador de "Populous"), participando do desenvolvimento do jogo clássico "Theme Park". Essa experiência ensinou-lhe:

Como projetar sistemas complexos: Jogos são modelos simplificados que simulam o mundo real
Previsão de comportamento dos jogadores: A IA precisa entender o processo de tomada de decisão humana

Neurocientista Cognitivo

Após obter seu diploma em Ciência da Computação em Cambridge, Hassabis obteve seu doutorado em Neurociência Cognitiva na University College London (UCL). Seu tema de pesquisa foi: como o hipocampo permite que os humanos imaginem e planejem.

Esta pesquisa descobriu:

A memória humana e a imaginação usam a mesma região cerebral
Planejamos o futuro através de "viagens mentais no tempo"
Essa capacidade pode ser o núcleo da inteligência

Esses insights influenciaram diretamente o design posterior do AlphaGo — permitindo que a IA "imagine" jogadas futuras e aprenda com elas.

Cofundadores

Em 2010, Hassabis cofundou a DeepMind com dois parceiros:

Fundador	Background	Contribuição
Demis Hassabis	Neurociência, Design de Jogos	Visão e Estratégia
Shane Legg	PhD em Machine Learning	Base Teórica da AGI
Mustafa Suleyman	Empreendedor Social	Negócios e Aplicações

"Resolver a Inteligência, Usar a Inteligência para Resolver Tudo"

A declaração de missão da DeepMind é:

"Solve intelligence, and then use that to solve everything else."

"Resolver a inteligência e então usá-la para resolver todo o resto."

Esta não é uma empresa de IA comum. Seu objetivo não é criar produtos, mas criar Inteligência Artificial Geral (AGI) — uma IA capaz de pensar, aprender e resolver qualquer problema como os humanos.

Por que "resolver a inteligência" primeiro? Porque uma vez que tenhamos AGI, ela pode nos ajudar a resolver os maiores desafios da humanidade: mudanças climáticas, doenças, energia.

Avanços Iniciais: Jogos de Atari

Antes de desafiar o Go, a DeepMind primeiro provou suas capacidades — usando IA para jogar jogos de Atari.

DQN: A IA que Aprendeu a Jogar

Em 2013, a DeepMind publicou o algoritmo DQN (Deep Q-Network). Esta IA era capaz de:

Ver apenas pixels da tela — sem receber nenhuma regra do jogo
Aprender a jogar sozinha — através de tentativa e erro
Alcançar nível humano — e até superar humanos em alguns jogos

No Breakout, a DQN aprendeu uma estratégia que os humanos levam horas para descobrir: cavar um túnel para deixar a bola passar atrás dos tijolos, eliminando muitos de uma vez.

Isso provou que a combinação de deep learning + aprendizado por reforço pode descobrir estratégias que os humanos nunca imaginaram.

Por Que Começar com Jogos?

Hassabis escolheu jogos como plataforma de pesquisa por várias razões:

Ambiente controlável: Jogos têm regras e objetivos claros
Progresso mensurável: Há pontuações objetivas para avaliar a capacidade da IA
Referência humana: Pode-se comparar com jogadores humanos
Diversidade: Diferentes jogos testam diferentes habilidades

Essa metodologia foi posteriormente aplicada ao Go.

Aquisição pelo Google

A Aposta de 500 Milhões de Dólares

Em janeiro de 2014, o Google adquiriu a DeepMind por aproximadamente 500 milhões de dólares. Esta foi uma das maiores aquisições no campo da IA na época.

Por que o Google estava disposto a pagar tanto por uma empresa com apenas 75 pessoas e sem produtos?

A resposta está na teoria dos jogos:

Facebook também estava competindo: Rumores dizem que o Facebook ofereceu 400 milhões de dólares
IA é a tecnologia chave do futuro: Quem dominar a IA primeiro, dominará o futuro
DeepMind é a melhor equipe: Eles provaram a viabilidade do deep reinforcement learning

O CEO do Google, Larry Page, interveio pessoalmente para convencer Hassabis a escolher o Google em vez do Facebook.

Condições da Aquisição

Hassabis negociou várias condições importantes:

Operação independente: A DeepMind manteve sua sede em Londres, P&D independente
Liberdade acadêmica: Pode publicar artigos, em vez de manter tudo confidencial
Comitê de ética: Estabelecimento de um mecanismo de revisão ética de IA
Pesquisa de longo prazo: Sem pressão de comercialização a curto prazo

Essas condições permitiram que a DeepMind perseguisse pesquisas de longo prazo e alto risco — como conquistar o Go com IA.

Estratégia de IA do Google

A aquisição da DeepMind fez parte da estratégia "IA primeiro" do Google:

Ano	Evento
2011	Fundação do Google Brain
2013	Aquisição da DNNresearch (equipe de Hinton)
2014	Aquisição da DeepMind
2015	TensorFlow de código aberto
2016	Lançamento do TPU

O Google percebeu que busca, publicidade, tradução, voz — todos os negócios principais seriam remodelados pela IA. Quem tiver a melhor IA será o vencedor.

Escolhendo o Go como Objetivo

Por Que o Go?

Após ser adquirida pelo Google, a DeepMind tinha mais recursos. Hassabis decidiu enfrentar um objetivo aparentemente impossível: usar IA para derrotar o campeão mundial de Go humano.

Por que escolher o Go, e não outros problemas?

1. Go é o "Santo Graal da IA"

Antes de 2016, especialistas geralmente acreditavam que a IA precisaria de pelo menos 10-20 anos para derrotar humanos no Go. O Go era chamado de "a última fortaleza da IA".

Razões:

Espaço de busca enorme: 10^170 posições possíveis (o número de átomos no universo é apenas 10^80)
Avaliação difícil: Ao contrário do xadrez, não há valores claros de peças
Dependência da intuição: Jogadores de alto nível frequentemente dizem "esta jogada parece certa", mas não conseguem explicar por quê

2. A Lição do Deep Blue

Em 1997, o Deep Blue da IBM derrotou o campeão mundial de xadrez Kasparov. Mas essa vitória foi controversa:

O Deep Blue dependia de busca por força bruta (avaliando 200 milhões de posições por segundo)
Usava funções de avaliação projetadas por especialistas humanos
Isso não era verdadeira "inteligência", mas "poder computacional"

Hassabis queria provar: a IA pode resolver problemas através de aprendizado, não força bruta.

3. Objetivo Mensurável

O Go tem um sistema de classificação internacional (Elo rating) e jogadores profissionais, fornecendo padrões objetivos de medição. Se a IA pudesse derrotar o campeão mundial, seria um sucesso indiscutível.

4. Conexão com a Neurociência

A intuição dos jogadores humanos — olhar para o tabuleiro e instantaneamente saber quais posições são importantes — é exatamente a capacidade que Hassabis queria replicar com IA. O Go é o cenário perfeito para testar a "intuição da máquina".

Equipe AlphaGo

Figuras Principais

O sucesso do AlphaGo veio de uma equipe com backgrounds multidisciplinares:

David Silver: Pesquisador Principal

David Silver é o primeiro autor do artigo do AlphaGo e um especialista de ponta em aprendizado por reforço.

Background: Graduado em Matemática em Cambridge, PhD em RL pela Universidade de Alberta
Orientador: Richard Sutton (pai do aprendizado por reforço)
Especialidade: Monte Carlo Tree Search, aprendizado por diferença temporal

Silver pesquisou Go computacional em sua tese de doutorado, mas a tecnologia na época estava longe de ser madura. Após entrar na DeepMind, ele finalmente teve a chance de realizar esse sonho.

Aja Huang: Especialista em Go

Aja Huang (Huang Shih-Chieh) é taiwanês, jogador amador de 6 dan, e também um pioneiro no campo do Go computacional.

Background: PhD em Ciência da Computação pela National Taiwan Normal University
Especialidade: Programação de Go computacional
Trabalho famoso: Erica (programa de Go computacional antigo)

Huang desempenhou um papel fundamental na equipe do AlphaGo: ele não só entendia Go, mas também IA. Durante as partidas contra Lee Sedol, ele foi quem operou o AlphaGo.

Outros Membros Importantes

Membro	Função
Chris J. Maddison	Especialista em Monte Carlo Tree Search
Arthur Guez	Pesquisador de Aprendizado por Reforço
Laurent Sifre	Engenheiro de Deep Learning
George van den Driessche	Engenheiro de Sistemas Distribuídos

Colaboração Interdisciplinar

O sucesso do AlphaGo provou o poder da colaboração interdisciplinar:

Especialistas em Go forneceram conhecimento de domínio
Pesquisadores de machine learning projetaram algoritmos
Engenheiros implementaram sistemas de treinamento em larga escala
Neurocientistas forneceram inspiração teórica

Essa composição de equipe mais tarde se tornou o padrão da DeepMind.

Publicação no Nature

A Surpresa Secreta

Em 27 de janeiro de 2016, a DeepMind publicou um artigo na prestigiosa revista acadêmica Nature:

"Mastering the game of Go with deep neural networks and tree search"

O artigo anunciou que o AlphaGo tinha:

Derrotado todos os outros programas de Go
Derrotado o campeão europeu Fan Hui (profissional 2 dan) por 5:0

Esta notícia chocou o mundo. Antes da publicação do artigo, ninguém sabia que a DeepMind estava pesquisando Go.

Contribuições Principais do Artigo

O artigo da Nature descreveu três grandes inovações do AlphaGo:

1. Policy Network (Rede de Políticas)

Usar redes neurais convolucionais profundas para prever o próximo movimento de jogadores humanos. Os dados de treinamento vieram de 30 milhões de partidas humanas.

Precisão: 57% (prever o próximo movimento de especialistas humanos)

Isso foi mais de 10 pontos percentuais maior que os melhores programas de Go computacional anteriores.

2. Value Network (Rede de Valor)

Usar outra rede neural para avaliar a taxa de vitória da posição atual. Isso substituiu as simulações aleatórias tradicionais (Monte Carlo rollout).

Precisão: Equivalente a 15.000 simulações aleatórias, mas 15.000 vezes mais rápido

3. Integração com Monte Carlo Tree Search

Integrar as duas redes neurais no framework MCTS:

Policy Network guia a direção da busca
Value Network avalia os nós folha

Isso deu ao AlphaGo tanto "intuição" (redes neurais) quanto "raciocínio" (busca em árvore).

Reação da Comunidade Acadêmica

Após a publicação do artigo, a comunidade acadêmica reagiu entusiasticamente:

"Este é o momento de pouso na lua da inteligência artificial." — Stuart Russell, Professor da UC Berkeley, autor de livro-texto de IA

"Eu originalmente pensei que levaria mais 10 anos, não esperava que fosse tão rápido." — Martin Müller, especialista em Go computacional

Mas alguns também eram céticos:

"Fan Hui é apenas um profissional 2 dan, não um jogador de alto nível real. Deixe o AlphaGo jogar contra Lee Sedol primeiro."

A DeepMind aceitou esse desafio.

Desafiando Lee Sedol

Por Que Lee Sedol?

Lee Sedol é um jogador coreano, considerado um dos jogadores mais fortes da última década:

Métrica	Dados
Títulos de Campeão Mundial	18
Campeonatos Internacionais	32
Maior Ranking Mundial	#1
Estilo	"Gênio" "Calculista Divino"

Ao escolher Lee Sedol, a DeepMind estava desafiando o oponente humano mais forte.

Prêmio de 1 Milhão de Dólares

O Google ofereceu um prêmio de 1 milhão de dólares para esta partida:

Se Lee Sedol vencesse: O prêmio iria para Lee Sedol
Se o AlphaGo vencesse: O prêmio seria doado para UNICEF, educação STEM e outras instituições de caridade

Isso não foi apenas uma demonstração técnica, mas também um evento esportivo de atenção global.

Previsões Antes da Partida

Antes da partida, a maioria dos jogadores profissionais previa que Lee Sedol venceria facilmente:

"O AlphaGo pode ganhar um jogo, mas em 5 jogos eu vencerei 5:0." — Lee Sedol, entrevista pré-partida

"Computadores jogam de forma rígida, jogadores de alto nível podem facilmente encontrar fraquezas." — Um profissional 9 dan

Mas a equipe da DeepMind tinha uma visão diferente. David Silver revelou depois:

"Em nossos testes internos, já havíamos feito o AlphaGo jogar 500 partidas contra a versão que enfrentou Fan Hui. A nova versão ganhou 499."

Março de 2016: Cinco Jogos que Mudaram o Mundo

Primeiro Jogo: O Choque Começa

9 de março de 2016, Hotel Four Seasons, Seul.

Lee Sedol jogou de preto primeiro, AlphaGo de branco. Após 3 horas e 28 minutos de jogo, o AlphaGo venceu por resignação no meio do jogo.

Esta foi a primeira vez que um jogador humano de elite perdeu oficialmente para uma IA.

Segundo Jogo: A Jogada Divina

O segundo jogo produziu o que ficou conhecido como a "Jogada Divina" na jogada 37 — AlphaGo fez um shoulder hit na quinta linha que todos os jogadores profissionais pensaram ser um erro, mas que se provou ser a chave para a vitória.

(Veja detalhes no próximo artigo: Análise Aprofundada da "Jogada Divina")

O AlphaGo venceu novamente.

Terceiro Jogo: 3:0

No terceiro jogo, Lee Sedol tentou uma abertura não tradicional, mas o AlphaGo respondeu com facilidade. 3:0.

O mundo começou a perceber: isso não foi acidente, a IA realmente superou os humanos.

Quarto Jogo: O Contra-Ataque Humano

No quarto jogo, Lee Sedol fez o que ficou conhecido como a "Jogada Divina" na jogada 78 — um wedge brilhante que causou confusão no AlphaGo.

O AlphaGo fez jogadas claramente ruins nos movimentos seguintes e finalmente resignou.

Esta vitória provou: a IA também tem fraquezas. Lee Sedol a encontrou.

Quinto Jogo: Placar Final

No quinto jogo, o AlphaGo voltou ao normal e terminou a partida com uma vitória por resignação no meio do jogo.

Placar final: AlphaGo 4:1 Lee Sedol

Impacto e Consequências

Atenção Global

O impacto desta partida foi muito além do mundo do Go:

200 milhões de pessoas ao redor do mundo assistiram à transmissão ao vivo
The New York Times, The Economist e outros meios de comunicação mainstream cobriram extensivamente
O preço das ações do Google subiu durante a partida
"Inteligência Artificial" tornou-se o tópico de tecnologia mais quente daquele ano

Impacto no Mundo do Go

Após a partida, a atitude dos jogadores profissionais mudou de "desdém" para "respeito":

"Nós pensávamos que humanos entendiam Go, agora descobrimos que só sabemos um pouco." — Ke Jie, jogador chinês, #1 mundial na época

Muitos jogadores profissionais começaram a usar IA para treinar, e a forma de jogar Go também mudou como resultado.

Impacto no Campo da IA

O AlphaGo provou várias coisas:

Deep learning pode resolver problemas de nível especialista: Não apenas reconhecer gatos e cachorros, mas também jogar Go
Aprendizado por reforço pode superar humanos: Através de auto-jogo, a IA pode descobrir estratégias desconhecidas pelos humanos
Redes neurais + busca é uma combinação poderosa: Intuição + raciocínio = inteligência mais forte

Esses insights foram posteriormente aplicados a:

AlphaFold: Previsão de estrutura de proteínas (conquista de nível Prêmio Nobel em 2020)
AlphaZero: IA de jogos gerais
MuZero: Aprendizado sem regras

Correspondência de Animações

Conceitos principais abordados neste artigo e números de animação:

Número	Conceito	Correspondência Física/Matemática
E7	Do Zero	Auto-organização
E5	Auto-Jogo	Convergência de ponto fixo
F8	Capacidades Emergentes	Transição de fase
H4	Gradiente de Política	Otimização estocástica

Leitura Adicional

Próximo artigo: Revisão das Partidas Principais — Análise completa das partidas de Fan Hui, Lee Sedol, Ke Jie
Detalhes técnicos: Policy Network em Detalhes — Como o AlphaGo aprendeu a jogar
Prática hands-on: Execute Sua Primeira IA de Go em 30 Minutos — Experimente você mesmo

Referências

Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature, 529, 484-489.
Mnih, V., et al. (2015). "Human-level control through deep reinforcement learning." Nature, 518, 529-533.
Hassabis, D. (2017). "Artificial Intelligence: Chess match of the century." Nature, 544, 413-414.
Documentário AlphaGo (2017), Diretor Greg Kohs.

A Fundação da DeepMind​

Demis Hassabis: De Prodígio a Pioneiro da IA​

Prodígio do Xadrez​

Designer de Jogos​

Neurocientista Cognitivo​

Cofundadores​

"Resolver a Inteligência, Usar a Inteligência para Resolver Tudo"​

Avanços Iniciais: Jogos de Atari​

DQN: A IA que Aprendeu a Jogar​

Por Que Começar com Jogos?​

Aquisição pelo Google​

A Aposta de 500 Milhões de Dólares​

Condições da Aquisição​

Estratégia de IA do Google​

Escolhendo o Go como Objetivo​

Por Que o Go?​

1. Go é o "Santo Graal da IA"​

2. A Lição do Deep Blue​

3. Objetivo Mensurável​

4. Conexão com a Neurociência​

Equipe AlphaGo​

Figuras Principais​

David Silver: Pesquisador Principal​

Aja Huang: Especialista em Go​

Outros Membros Importantes​

Colaboração Interdisciplinar​

Publicação no Nature​

A Surpresa Secreta​

Contribuições Principais do Artigo​

1. Policy Network (Rede de Políticas)​

2. Value Network (Rede de Valor)​

3. Integração com Monte Carlo Tree Search​

Reação da Comunidade Acadêmica​

Desafiando Lee Sedol​

Por Que Lee Sedol?​

Prêmio de 1 Milhão de Dólares​

Previsões Antes da Partida​

Março de 2016: Cinco Jogos que Mudaram o Mundo​

Primeiro Jogo: O Choque Começa​

Segundo Jogo: A Jogada Divina​

Terceiro Jogo: 3:0​

Quarto Jogo: O Contra-Ataque Humano​

Quinto Jogo: Placar Final​

Impacto e Consequências​

Atenção Global​

Impacto no Mundo do Go​

Impacto no Campo da IA​

Correspondência de Animações​

Leitura Adicional​

Referências​