Pular para o conteúdo principal

Visão Geral do AlphaGo Zero

Em outubro de 2017, a DeepMind publicou um resultado que chocou o mundo da IA: AlphaGo Zero, sem usar qualquer registro de partidas humanas, começando a treinar de um estado completamente aleatório, superou o AlphaGo original que derrotou Lee Sedol em apenas três dias, e venceu por 100:0.

Isso não é apenas um progresso numérico. Representa um novo paradigma: A IA não precisa de conhecimento humano, pode descobrir tudo do zero.


Por que Não Precisa de Registros de Partidas Humanas?

Limitações dos Registros de Partidas Humanas

O processo de treinamento do AlphaGo original era dividido em duas etapas:

  1. Aprendizado supervisionado: Treinar a Policy Network com 30 milhões de partidas humanas
  2. Aprendizado por reforço: Melhorar ainda mais através de auto-jogo

Este método tem vários problemas fundamentais:

1. Os registros humanos têm um teto

A habilidade dos jogadores humanos tem limites, os registros contêm a compreensão humana, mas também incluem erros e vieses humanos. Quando a IA aprende com registros humanos, ela aprende:

  • Jogadas que os humanos consideram boas (mas não necessariamente ótimas)
  • Padrões de pensamento humano (que podem limitar a inovação)
  • Erros humanos (que são aprendidos como exemplos corretos)

2. O gargalo do aprendizado supervisionado

O objetivo do aprendizado supervisionado é "imitar humanos" — prever qual jogada um jogador humano faria. Isso significa que o limite de capacidade da IA é limitado pela habilidade dos jogadores humanos.

É como um aprendiz que só pode imitar o mestre, nunca podendo superar o mestre.

3. Custo de coleta de dados

Registros de partidas humanas de alta qualidade levam muitos anos para acumular, e só existem para jogos com longa história como o Go. Se quisermos aplicar IA a novos campos (como previsão de estrutura de proteínas), simplesmente não existem "registros de especialistas humanos".

O Avanço do Zero

O AlphaGo Zero pula completamente a etapa de aprendizado supervisionado, começando diretamente o auto-jogo a partir de inicialização aleatória. Isso resolve todos os problemas acima:

ProblemaAlphaGo OriginalAlphaGo Zero
Limite do conhecimento humanoLimitado pela qualidade dos registrosSem esta limitação
Objetivo de aprendizadoImitar humanosMaximizar taxa de vitória
Requisitos de dados30 milhões de partidas0
GeneralizabilidadeApenas GoPode ser generalizado para outros campos

Esta é uma mudança de paradigma fundamental: de "aprender conhecimento humano" para "descobrir conhecimento a partir de primeiros princípios".


Comparação com o AlphaGo Original: 100:0

Vitória Esmagadora

A DeepMind fez o AlphaGo Zero treinado jogar contra várias versões do AlphaGo:

OponenteResultado do AlphaGo Zero
AlphaGo Fan (versão que derrotou Fan Hui)100:0
AlphaGo Lee (versão que derrotou Lee Sedol)100:0
AlphaGo Master (versão das 60 vitórias consecutivas)89:11

100:0 — isso significa que em 100 partidas, o AlphaGo original não conseguiu vencer sequer uma.

Menos Recursos, Mais Força

Não apenas venceu, o AlphaGo Zero também alcançou maior força de jogo com menos recursos:

MétricaAlphaGo LeeAlphaGo Zero
Tempo de treinamentoVários meses40 dias (3 dias para superar AlphaGo Lee)
Partidas de treinamento30 milhões de partidas humanas + auto-jogo4,9 milhões de partidas de auto-jogo
TPUs (treinamento)50+4
TPUs (inferência)484
Características de entrada48 planos17 planos
Rede neuralRedes duplas SL + RLÚnica rede de cabeça dupla

Esta é uma melhoria de eficiência impressionante: recursos reduzidos em mais de 10 vezes, mas a força de jogo aumentou significativamente.

Por que o Zero é Mais Forte?

As razões pelas quais o AlphaGo Zero é mais forte podem ser entendidas de vários ângulos:

1. Aprendizado sem viés

O AlphaGo original aprendeu com registros humanos, herdando vieses humanos. Por exemplo, jogadores humanos podem supervalorizar certos josekis, ou ter avaliações incorretas de certas posições.

O AlphaGo Zero não tem essa bagagem. Ele começa de uma tela em branco, aprendendo o que é uma boa jogada apenas através dos resultados de vitória/derrota. Isso permite descobrir jogadas que os humanos nunca imaginaram.

2. Objetivo de aprendizado consistente

O treinamento do AlphaGo original tinha dois objetivos diferentes:

  • Aprendizado supervisionado: Maximizar a precisão de previsão das jogadas humanas
  • Aprendizado por reforço: Maximizar a taxa de vitória

Estes dois objetivos podem entrar em conflito. O AlphaGo Zero tem apenas um objetivo: maximização da taxa de vitória. Isso torna o processo de aprendizado mais consistente e eficaz.

3. Arquitetura mais simples

O AlphaGo original usava Policy Network e Value Network separadas. O AlphaGo Zero usa uma única rede de cabeça dupla (veja o próximo artigo), permitindo que a representação de características seja compartilhada, aumentando a eficiência de aprendizado.


Características de Entrada Simplificadas: De 48 para 17

48 Planos de Características do AlphaGo Original

A entrada da rede neural do AlphaGo original incluía 48 planos de características 19x19, codificando muitas características projetadas por humanos:

CategoriaNúmero de característicasConteúdo
Posições das pedras3Pedras pretas, pedras brancas, pontos vazios
Liberdades8Grupos com 1-8 liberdades
Capturas8Pode capturar 1-8 pedras
Ko1Posição do ko
Distância da borda4Primeira a quarta linha
Legalidade de jogada1Quais posições podem ser jogadas
Estado histórico8Posições das últimas 8 jogadas
Turno1Pretas ou brancas
Outros14Escada, olhos, etc.

Estas 48 características foram cuidadosamente projetadas por especialistas de Go, contendo muito conhecimento do domínio.

17 Planos de Características do AlphaGo Zero

O AlphaGo Zero simplificou drasticamente a entrada, usando apenas 17 planos de características:

Número do planoConteúdoQuantidade
1-8Posições das pedras pretas (últimas 8 jogadas)8
9-16Posições das pedras brancas (últimas 8 jogadas)8
17Turno atual (todo 1 ou todo 0)1

Estes 17 planos contêm apenas:

  • Estado atual do tabuleiro: Cada posição tem pedra preta, pedra branca ou vazia
  • Informação histórica: Estado do tabuleiro das últimas 8 jogadas
  • Informação de turno: De quem é a vez de jogar

Sem liberdades, sem julgamento de escada, sem distância da borda — todo esse "conhecimento de Go" é deixado para a rede neural aprender sozinha.

Por que a Simplificação é Boa?

1. Deixar a rede descobrir características

Características manuais complexas podem perder informações importantes, ou codificar suposições incorretas. Deixar a rede neural aprender a partir de dados brutos pode levar a descobrir melhores representações de características.

De fato, o AlphaGo Zero aprendeu todas as características que os humanos projetaram (liberdades, escadas, etc.), e também aprendeu alguns padrões que os humanos não tinham consciência explícita.

2. Melhor generalizabilidade

Muitas das 48 características são específicas do Go (como escadas, distância da borda). Os 17 planos simplificados são genéricos — qualquer jogo de tabuleiro pode ser codificado de forma similar.

Isso estabeleceu as bases para o posterior AlphaZero (IA de jogos genérica).

3. Redução de erros humanos

Características projetadas manualmente podem conter definições incorretas ou incompletas. Simplificar a entrada elimina a possibilidade desses problemas.


Arquitetura de Rede Única

Design de Rede Dupla da Versão Original

O AlphaGo original usava duas redes neurais independentes:

Policy Network:  Entrada → CNN → Probabilidades de jogada 19x19
Value Network: Entrada → CNN → Estimativa de taxa de vitória (-1 a 1)

Estas duas redes:

  • Tinham arquiteturas diferentes (número de camadas e canais ligeiramente diferentes)
  • Eram treinadas independentemente (primeiro Policy, depois Value)
  • Não compartilhavam nenhum parâmetro

Rede de Cabeça Dupla do Zero

O AlphaGo Zero usa uma única rede, mas com duas cabeças de saída (heads):

Entrada → Backbone ResNet compartilhado → Policy Head → Probabilidades de jogada 19x19
→ Value Head → Estimativa de taxa de vitória

As duas Heads compartilham o mesmo backbone ResNet (veja o próximo artigo: Rede de Cabeça Dupla e Rede Residual), o que traz várias vantagens:

1. Eficiência de parâmetros

Backbone compartilhado significa que a maioria dos parâmetros é usada por ambas as tarefas. Isso reduz o número total de parâmetros e diminui o risco de overfitting.

2. Compartilhamento de características

"Onde devo jogar" (Policy) e "Quem vai ganhar" (Value) precisam entender padrões de tabuleiro similares. O backbone compartilhado permite que essas características sejam aprendidas e utilizadas por ambas as tarefas simultaneamente.

3. Estabilidade de treinamento

O treinamento conjunto faz com que os sinais de gradiente venham de duas fontes, fornecendo sinais de supervisão mais ricos, tornando o treinamento mais estável.

O Poder da Rede Residual

O backbone do AlphaGo Zero usa uma rede residual (ResNet) de 40 camadas, muito mais profunda que a CNN de 13 camadas do AlphaGo original.

As conexões residuais (skip connections) permitem que redes profundas sejam treinadas efetivamente, evitando o problema do gradiente desvanecente. Esta foi a tecnologia inovadora da competição ImageNet de 2015, aplicada com sucesso pelo AlphaGo Zero ao campo do Go.


Melhoria na Eficiência de Treinamento

Crescimento Exponencial do Auto-jogo

O processo de treinamento do AlphaGo Zero demonstra uma eficiência impressionante:

Tempo de TreinamentoClassificação ELOEquivalente a
0 horas0Jogando aleatoriamente
3 horas~1000Descobriu regras básicas
12 horas~3000Descobriu josekis
36 horas~4500Superou versão Fan Hui
60 horas~5200Superou versão Lee Sedol
72 horas~5400Superou AlphaGo original
40 dias~5600Versão mais forte

Três dias para superar humanos, três dias para superar IA que levou meses para treinar — isso é uma melhoria de eficiência exponencial.

Por que Tão Rápido?

1. Guia de busca mais forte

O MCTS do AlphaGo Zero é completamente guiado pela rede neural, não usa mais a política de jogada rápida (rollout). Isso torna a busca mais eficiente e precisa.

2. Auto-jogo mais rápido

Como precisa de apenas uma rede (em vez de duas), o custo computacional de cada partida de auto-jogo é reduzido. Isso significa que mais dados de treinamento podem ser gerados no mesmo tempo.

3. Aprendizado mais eficaz

O treinamento conjunto da rede de cabeça dupla faz com que a informação de cada partida seja utilizada de forma mais eficiente. Os gradientes de Policy e Value se reforçam mutuamente, acelerando a convergência.

Comparação com Aprendizado Humano

Quanto tempo jogadores humanos precisam para alcançar diferentes níveis?

NívelTempo necessário humanoAlphaGo Zero
InicianteVárias semanasAlguns minutos
Amateur 1 danVários anosAlgumas horas
Nível profissional10-20 anos1-2 dias
Campeão mundial20+ anos de dedicação em tempo integral3 dias
Superar humanosImpossível3 dias

Esta comparação não é para diminuir jogadores humanos — eles usam neurônios biológicos, enquanto o AlphaGo Zero usa TPUs especialmente projetados e vários quilowatts de eletricidade. Mas isso realmente demonstra quão eficiente o método de aprendizado correto pode ser.


Generalidade: Xadrez, Shogi

O Nascimento do AlphaZero

Em dezembro de 2017, a DeepMind publicou o AlphaZero — a versão genérica do AlphaGo Zero. O mesmo algoritmo, apenas modificando as regras do jogo, alcançou nível mundial em três jogos de tabuleiro:

JogoTempo de TreinamentoOponenteResultado
Go8 horasAlphaGo Zero60:40
Xadrez4 horasStockfish 828 vitórias 72 empates 0 derrotas
Shogi2 horasElmo90:8:2

Note os oponentes:

  • Stockfish era a engine de xadrez mais forte na época, usando décadas de conhecimento humano e otimização
  • Elmo era a IA de shogi mais forte na época

O AlphaZero com algumas horas de treinamento superou esses sistemas especializados que levaram anos para desenvolver.

O Significado da Generalidade

AlphaGo Zero / AlphaZero provou algo importante:

O mesmo algoritmo de aprendizado pode alcançar nível sobre-humano em diferentes domínios.

Não são três IAs diferentes, mas um framework de aprendizado genérico:

  1. Auto-jogo gera experiência
  2. Busca em Árvore de Monte Carlo explora possibilidades
  3. Rede Neural aprende função de política e valor
  4. Aprendizado por reforço otimiza a função objetivo

Este framework não depende de conhecimento específico do domínio, isso é um passo importante para a generalização da IA.

Impacto na IA Tradicional

Antes do AlphaZero, as IAs mais fortes de xadrez e shogi eram do estilo "sistema especialista":

  • Muito conhecimento humano: Livros de abertura, tabelas de finais, funções de avaliação
  • Décadas de otimização: Sangue e suor de incontáveis jogadores e engenheiros
  • Altamente especializadas: Stockfish não consegue jogar Go, Elmo não consegue jogar xadrez

O AlphaZero superou tudo isso em horas com um algoritmo genérico. Isso fez muitos pesquisadores de IA reconsiderarem:

Devemos investir mais esforços em "algoritmos de aprendizado genéricos" ou "codificação de conhecimento especializado"?

A resposta parece cada vez mais clara: deixar a máquina aprender sozinha é mais eficaz do que ensiná-la conhecimento.


Estilo de Jogo do AlphaGo Zero

Estética Além dos Humanos

O mundo do Go tem uma avaliação comum das jogadas do AlphaGo Zero: mais elegantes.

As jogadas do AlphaGo Lee às vezes pareciam "estranhas" — como a jogada 37, onde os humanos precisaram de análise posterior para entender sua profundidade. Mas as jogadas do AlphaGo Zero são frequentemente avaliadas posteriormente como "imediatamente reconhecíveis como boas jogadas".

Isso pode ser porque:

  1. Força de jogo mais forte: Zero pode ver mais profundamente, jogar com mais calma
  2. Sem vieses humanos: Não limitado por josekis tradicionais
  3. Objetivo consistente: Busca apenas taxa de vitória, não imita humanos

Redescoberta da Teoria de Go Humana

Curiosamente, o AlphaGo Zero "redescobriu" o conhecimento de Go que os humanos acumularam ao longo de milhares de anos durante o treinamento:

  • Josekis: Zero descobriu sozinho muitos josekis comuns, porque estes são de fato as soluções ótimas para ambos os lados
  • Princípios de abertura: A ordem de importância de cantos, bordas e centro
  • Conhecimento de formas: A diferença entre formas ruins e formas boas

Isso valida a racionalidade da teoria de Go humana — este conhecimento não é coincidência, mas reflexo da essência do Go.

Inovação Além dos Humanos

Mas o Zero também descobriu jogadas que os humanos nunca imaginaram:

  • Aberturas não convencionais: Variações sobre aberturas tradicionais
  • Sacrifícios agressivos: Mais disposto que humanos a desistir localmente em troca de vantagem global
  • Formas contra-intuitivas: "Formas ruins" superficiais que na verdade são a solução ótima

Estas inovações estão mudando a compreensão humana do Go. Muitos jogadores profissionais dizem que estudar os registros de partidas do AlphaGo Zero lhes deu uma compreensão completamente nova do Go.


Resumo dos Detalhes Técnicos

Comparação Completa com o AlphaGo Original

AspectoAlphaGo (Original)AlphaGo Zero
Dados de treinamentoRegistros humanos + auto-jogoPuro auto-jogo
Método de aprendizadoSupervisionado + por reforçoPuro por reforço
Características de entrada48 planos17 planos
Arquitetura de redePolicy/Value separadasResNet de cabeça dupla
Profundidade da rede13 camadas40 camadas (ou mais)
Avaliação MCTSRede neural + RolloutPura rede neural
Simulações~100.000 por jogada~1.600 por jogada
TPUs de treinamento50+4
TPUs de inferência484 (escalável)

Algoritmo Central

O ciclo de treinamento do AlphaGo Zero é muito simples:

1. Auto-jogo
- Usar rede atual para MCTS
- Selecionar jogadas pela probabilidade de busca MCTS
- Registrar cada passo (posição, probabilidade MCTS, resultado da partida)

2. Treinar rede
- Amostrar do pool de experiência
- Policy Head: minimizar entropia cruzada com probabilidades MCTS
- Value Head: minimizar erro quadrático médio com resultado real
- Otimizar ambos os objetivos conjuntamente

3. Atualizar rede
- Substituir rede antiga pela nova (verificar que nova é mais forte por auto-jogo)
- Voltar ao passo 1

Este ciclo roda continuamente, e a rede fica cada vez mais forte. Sem dados humanos, sem conhecimento humano, apenas regras do jogo e objetivo de vitória/derrota.


Lições para Pesquisa em IA

Aprendizado de Primeiros Princípios

O AlphaGo Zero demonstrou um método de aprendizado de "primeiros princípios":

Não diga à IA como fazer, apenas diga qual é o objetivo, e deixe-a descobrir o método por conta própria.

Isso forma um contraste marcante com a abordagem tradicional de sistemas especialistas. Sistemas especialistas tentam codificar conhecimento humano na IA, enquanto o AlphaGo Zero deixa a IA descobrir conhecimento por conta própria.

O resultado é: o conhecimento que a IA descobre pode ser mais completo e preciso que o conhecimento humano.

O Poder do Auto-jogo

O AlphaGo Zero provou que o auto-jogo pode gerar dados de treinamento infinitos, e a qualidade desses dados melhora à medida que a rede melhora.

Este é um "ciclo positivo":

  • Rede mais forte → Dados de auto-jogo melhores
  • Dados melhores → Rede mais forte

Este ciclo pode continuar rodando até atingir o limite teórico do jogo (se existir).

A Importância da Simplificação

O sucesso do AlphaGo Zero prova a importância da "simplificação":

  • Simplificar entrada (48 → 17)
  • Simplificar arquitetura (rede dupla → rede única)
  • Simplificar treinamento (supervisionado + reforço → puro reforço)

Cada simplificação tornou o sistema mais poderoso. Isso nos diz: complexo não significa bom, a solução mais simples frequentemente é a melhor.


Correspondência de Animações

Conceitos centrais discutidos neste artigo e números de animação:

NúmeroConceitoCorrespondência Física/Matemática
🎬 E7Treinamento do zeroFenômeno de auto-organização
🎬 E5Auto-jogoConvergência de ponto fixo
🎬 E12Curva de crescimento de forçaCrescimento em forma de S
🎬 D12Rede residualRodovia de gradientes

Leitura Adicional


Referências

  1. Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
  2. Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
  3. DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
  4. Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.