Visão Geral do AlphaGo Zero
Em outubro de 2017, a DeepMind publicou um resultado que chocou o mundo da IA: AlphaGo Zero, sem usar qualquer registro de partidas humanas, começando a treinar de um estado completamente aleatório, superou o AlphaGo original que derrotou Lee Sedol em apenas três dias, e venceu por 100:0.
Isso não é apenas um progresso numérico. Representa um novo paradigma: A IA não precisa de conhecimento humano, pode descobrir tudo do zero.
Por que Não Precisa de Registros de Partidas Humanas?
Limitações dos Registros de Partidas Humanas
O processo de treinamento do AlphaGo original era dividido em duas etapas:
- Aprendizado supervisionado: Treinar a Policy Network com 30 milhões de partidas humanas
- Aprendizado por reforço: Melhorar ainda mais através de auto-jogo
Este método tem vários problemas fundamentais:
1. Os registros humanos têm um teto
A habilidade dos jogadores humanos tem limites, os registros contêm a compreensão humana, mas também incluem erros e vieses humanos. Quando a IA aprende com registros humanos, ela aprende:
- Jogadas que os humanos consideram boas (mas não necessariamente ótimas)
- Padrões de pensamento humano (que podem limitar a inovação)
- Erros humanos (que são aprendidos como exemplos corretos)
2. O gargalo do aprendizado supervisionado
O objetivo do aprendizado supervisionado é "imitar humanos" — prever qual jogada um jogador humano faria. Isso significa que o limite de capacidade da IA é limitado pela habilidade dos jogadores humanos.
É como um aprendiz que só pode imitar o mestre, nunca podendo superar o mestre.
3. Custo de coleta de dados
Registros de partidas humanas de alta qualidade levam muitos anos para acumular, e só existem para jogos com longa história como o Go. Se quisermos aplicar IA a novos campos (como previsão de estrutura de proteínas), simplesmente não existem "registros de especialistas humanos".
O Avanço do Zero
O AlphaGo Zero pula completamente a etapa de aprendizado supervisionado, começando diretamente o auto-jogo a partir de inicialização aleatória. Isso resolve todos os problemas acima:
| Problema | AlphaGo Original | AlphaGo Zero |
|---|---|---|
| Limite do conhecimento humano | Limitado pela qualidade dos registros | Sem esta limitação |
| Objetivo de aprendizado | Imitar humanos | Maximizar taxa de vitória |
| Requisitos de dados | 30 milhões de partidas | 0 |
| Generalizabilidade | Apenas Go | Pode ser generalizado para outros campos |
Esta é uma mudança de paradigma fundamental: de "aprender conhecimento humano" para "descobrir conhecimento a partir de primeiros princípios".
Comparação com o AlphaGo Original: 100:0
Vitória Esmagadora
A DeepMind fez o AlphaGo Zero treinado jogar contra várias versões do AlphaGo:
| Oponente | Resultado do AlphaGo Zero |
|---|---|
| AlphaGo Fan (versão que derrotou Fan Hui) | 100:0 |
| AlphaGo Lee (versão que derrotou Lee Sedol) | 100:0 |
| AlphaGo Master (versão das 60 vitórias consecutivas) | 89:11 |
100:0 — isso significa que em 100 partidas, o AlphaGo original não conseguiu vencer sequer uma.
Menos Recursos, Mais Força
Não apenas venceu, o AlphaGo Zero também alcançou maior força de jogo com menos recursos:
| Métrica | AlphaGo Lee | AlphaGo Zero |
|---|---|---|
| Tempo de treinamento | Vários meses | 40 dias (3 dias para superar AlphaGo Lee) |
| Partidas de treinamento | 30 milhões de partidas humanas + auto-jogo | 4,9 milhões de partidas de auto-jogo |
| TPUs (treinamento) | 50+ | 4 |
| TPUs (inferência) | 48 | 4 |
| Características de entrada | 48 planos | 17 planos |
| Rede neural | Redes duplas SL + RL | Única rede de cabeça dupla |
Esta é uma melhoria de eficiência impressionante: recursos reduzidos em mais de 10 vezes, mas a força de jogo aumentou significativamente.
Por que o Zero é Mais Forte?
As razões pelas quais o AlphaGo Zero é mais forte podem ser entendidas de vários ângulos:
1. Aprendizado sem viés
O AlphaGo original aprendeu com registros humanos, herdando vieses humanos. Por exemplo, jogadores humanos podem supervalorizar certos josekis, ou ter avaliações incorretas de certas posições.
O AlphaGo Zero não tem essa bagagem. Ele começa de uma tela em branco, aprendendo o que é uma boa jogada apenas através dos resultados de vitória/derrota. Isso permite descobrir jogadas que os humanos nunca imaginaram.
2. Objetivo de aprendizado consistente
O treinamento do AlphaGo original tinha dois objetivos diferentes:
- Aprendizado supervisionado: Maximizar a precisão de previsão das jogadas humanas
- Aprendizado por reforço: Maximizar a taxa de vitória
Estes dois objetivos podem entrar em conflito. O AlphaGo Zero tem apenas um objetivo: maximização da taxa de vitória. Isso torna o processo de aprendizado mais consistente e eficaz.
3. Arquitetura mais simples
O AlphaGo original usava Policy Network e Value Network separadas. O AlphaGo Zero usa uma única rede de cabeça dupla (veja o próximo artigo), permitindo que a representação de características seja compartilhada, aumentando a eficiência de aprendizado.
Características de Entrada Simplificadas: De 48 para 17
48 Planos de Características do AlphaGo Original
A entrada da rede neural do AlphaGo original incluía 48 planos de características 19x19, codificando muitas características projetadas por humanos:
| Categoria | Número de características | Conteúdo |
|---|---|---|
| Posições das pedras | 3 | Pedras pretas, pedras brancas, pontos vazios |
| Liberdades | 8 | Grupos com 1-8 liberdades |
| Capturas | 8 | Pode capturar 1-8 pedras |
| Ko | 1 | Posição do ko |
| Distância da borda | 4 | Primeira a quarta linha |
| Legalidade de jogada | 1 | Quais posições podem ser jogadas |
| Estado histórico | 8 | Posições das últimas 8 jogadas |
| Turno | 1 | Pretas ou brancas |
| Outros | 14 | Escada, olhos, etc. |
Estas 48 características foram cuidadosamente projetadas por especialistas de Go, contendo muito conhecimento do domínio.
17 Planos de Características do AlphaGo Zero
O AlphaGo Zero simplificou drasticamente a entrada, usando apenas 17 planos de características:
| Número do plano | Conteúdo | Quantidade |
|---|---|---|
| 1-8 | Posições das pedras pretas (últimas 8 jogadas) | 8 |
| 9-16 | Posições das pedras brancas (últimas 8 jogadas) | 8 |
| 17 | Turno atual (todo 1 ou todo 0) | 1 |
Estes 17 planos contêm apenas:
- Estado atual do tabuleiro: Cada posição tem pedra preta, pedra branca ou vazia
- Informação histórica: Estado do tabuleiro das últimas 8 jogadas
- Informação de turno: De quem é a vez de jogar
Sem liberdades, sem julgamento de escada, sem distância da borda — todo esse "conhecimento de Go" é deixado para a rede neural aprender sozinha.
Por que a Simplificação é Boa?
1. Deixar a rede descobrir características
Características manuais complexas podem perder informações importantes, ou codificar suposições incorretas. Deixar a rede neural aprender a partir de dados brutos pode levar a descobrir melhores representações de características.
De fato, o AlphaGo Zero aprendeu todas as características que os humanos projetaram (liberdades, escadas, etc.), e também aprendeu alguns padrões que os humanos não tinham consciência explícita.
2. Melhor generalizabilidade
Muitas das 48 características são específicas do Go (como escadas, distância da borda). Os 17 planos simplificados são genéricos — qualquer jogo de tabuleiro pode ser codificado de forma similar.
Isso estabeleceu as bases para o posterior AlphaZero (IA de jogos genérica).
3. Redução de erros humanos
Características projetadas manualmente podem conter definições incorretas ou incompletas. Simplificar a entrada elimina a possibilidade desses problemas.
Arquitetura de Rede Única
Design de Rede Dupla da Versão Original
O AlphaGo original usava duas redes neurais independentes:
Policy Network: Entrada → CNN → Probabilidades de jogada 19x19
Value Network: Entrada → CNN → Estimativa de taxa de vitória (-1 a 1)
Estas duas redes:
- Tinham arquiteturas diferentes (número de camadas e canais ligeiramente diferentes)
- Eram treinadas independentemente (primeiro Policy, depois Value)
- Não compartilhavam nenhum parâmetro
Rede de Cabeça Dupla do Zero
O AlphaGo Zero usa uma única rede, mas com duas cabeças de saída (heads):
Entrada → Backbone ResNet compartilhado → Policy Head → Probabilidades de jogada 19x19
→ Value Head → Estimativa de taxa de vitória
As duas Heads compartilham o mesmo backbone ResNet (veja o próximo artigo: Rede de Cabeça Dupla e Rede Residual), o que traz várias vantagens:
1. Eficiência de parâmetros
Backbone compartilhado significa que a maioria dos parâmetros é usada por ambas as tarefas. Isso reduz o número total de parâmetros e diminui o risco de overfitting.
2. Compartilhamento de características
"Onde devo jogar" (Policy) e "Quem vai ganhar" (Value) precisam entender padrões de tabuleiro similares. O backbone compartilhado permite que essas características sejam aprendidas e utilizadas por ambas as tarefas simultaneamente.
3. Estabilidade de treinamento
O treinamento conjunto faz com que os sinais de gradiente venham de duas fontes, fornecendo sinais de supervisão mais ricos, tornando o treinamento mais estável.
O Poder da Rede Residual
O backbone do AlphaGo Zero usa uma rede residual (ResNet) de 40 camadas, muito mais profunda que a CNN de 13 camadas do AlphaGo original.
As conexões residuais (skip connections) permitem que redes profundas sejam treinadas efetivamente, evitando o problema do gradiente desvanecente. Esta foi a tecnologia inovadora da competição ImageNet de 2015, aplicada com sucesso pelo AlphaGo Zero ao campo do Go.
Melhoria na Eficiência de Treinamento
Crescimento Exponencial do Auto-jogo
O processo de treinamento do AlphaGo Zero demonstra uma eficiência impressionante:
| Tempo de Treinamento | Classificação ELO | Equivalente a |
|---|---|---|
| 0 horas | 0 | Jogando aleatoriamente |
| 3 horas | ~1000 | Descobriu regras básicas |
| 12 horas | ~3000 | Descobriu josekis |
| 36 horas | ~4500 | Superou versão Fan Hui |
| 60 horas | ~5200 | Superou versão Lee Sedol |
| 72 horas | ~5400 | Superou AlphaGo original |
| 40 dias | ~5600 | Versão mais forte |
Três dias para superar humanos, três dias para superar IA que levou meses para treinar — isso é uma melhoria de eficiência exponencial.
Por que Tão Rápido?
1. Guia de busca mais forte
O MCTS do AlphaGo Zero é completamente guiado pela rede neural, não usa mais a política de jogada rápida (rollout). Isso torna a busca mais eficiente e precisa.
2. Auto-jogo mais rápido
Como precisa de apenas uma rede (em vez de duas), o custo computacional de cada partida de auto-jogo é reduzido. Isso significa que mais dados de treinamento podem ser gerados no mesmo tempo.
3. Aprendizado mais eficaz
O treinamento conjunto da rede de cabeça dupla faz com que a informação de cada partida seja utilizada de forma mais eficiente. Os gradientes de Policy e Value se reforçam mutuamente, acelerando a convergência.
Comparação com Aprendizado Humano
Quanto tempo jogadores humanos precisam para alcançar diferentes níveis?
| Nível | Tempo necessário humano | AlphaGo Zero |
|---|---|---|
| Iniciante | Várias semanas | Alguns minutos |
| Amateur 1 dan | Vários anos | Algumas horas |
| Nível profissional | 10-20 anos | 1-2 dias |
| Campeão mundial | 20+ anos de dedicação em tempo integral | 3 dias |
| Superar humanos | Impossível | 3 dias |
Esta comparação não é para diminuir jogadores humanos — eles usam neurônios biológicos, enquanto o AlphaGo Zero usa TPUs especialmente projetados e vários quilowatts de eletricidade. Mas isso realmente demonstra quão eficiente o método de aprendizado correto pode ser.
Generalidade: Xadrez, Shogi
O Nascimento do AlphaZero
Em dezembro de 2017, a DeepMind publicou o AlphaZero — a versão genérica do AlphaGo Zero. O mesmo algoritmo, apenas modificando as regras do jogo, alcançou nível mundial em três jogos de tabuleiro:
| Jogo | Tempo de Treinamento | Oponente | Resultado |
|---|---|---|---|
| Go | 8 horas | AlphaGo Zero | 60:40 |
| Xadrez | 4 horas | Stockfish 8 | 28 vitórias 72 empates 0 derrotas |
| Shogi | 2 horas | Elmo | 90:8:2 |
Note os oponentes:
- Stockfish era a engine de xadrez mais forte na época, usando décadas de conhecimento humano e otimização
- Elmo era a IA de shogi mais forte na época
O AlphaZero com algumas horas de treinamento superou esses sistemas especializados que levaram anos para desenvolver.
O Significado da Generalidade
AlphaGo Zero / AlphaZero provou algo importante:
O mesmo algoritmo de aprendizado pode alcançar nível sobre-humano em diferentes domínios.
Não são três IAs diferentes, mas um framework de aprendizado genérico:
- Auto-jogo gera experiência
- Busca em Árvore de Monte Carlo explora possibilidades
- Rede Neural aprende função de política e valor
- Aprendizado por reforço otimiza a função objetivo
Este framework não depende de conhecimento específico do domínio, isso é um passo importante para a generalização da IA.
Impacto na IA Tradicional
Antes do AlphaZero, as IAs mais fortes de xadrez e shogi eram do estilo "sistema especialista":
- Muito conhecimento humano: Livros de abertura, tabelas de finais, funções de avaliação
- Décadas de otimização: Sangue e suor de incontáveis jogadores e engenheiros
- Altamente especializadas: Stockfish não consegue jogar Go, Elmo não consegue jogar xadrez
O AlphaZero superou tudo isso em horas com um algoritmo genérico. Isso fez muitos pesquisadores de IA reconsiderarem:
Devemos investir mais esforços em "algoritmos de aprendizado genéricos" ou "codificação de conhecimento especializado"?
A resposta parece cada vez mais clara: deixar a máquina aprender sozinha é mais eficaz do que ensiná-la conhecimento.
Estilo de Jogo do AlphaGo Zero
Estética Além dos Humanos
O mundo do Go tem uma avaliação comum das jogadas do AlphaGo Zero: mais elegantes.
As jogadas do AlphaGo Lee às vezes pareciam "estranhas" — como a jogada 37, onde os humanos precisaram de análise posterior para entender sua profundidade. Mas as jogadas do AlphaGo Zero são frequentemente avaliadas posteriormente como "imediatamente reconhecíveis como boas jogadas".
Isso pode ser porque:
- Força de jogo mais forte: Zero pode ver mais profundamente, jogar com mais calma
- Sem vieses humanos: Não limitado por josekis tradicionais
- Objetivo consistente: Busca apenas taxa de vitória, não imita humanos
Redescoberta da Teoria de Go Humana
Curiosamente, o AlphaGo Zero "redescobriu" o conhecimento de Go que os humanos acumularam ao longo de milhares de anos durante o treinamento:
- Josekis: Zero descobriu sozinho muitos josekis comuns, porque estes são de fato as soluções ótimas para ambos os lados
- Princípios de abertura: A ordem de importância de cantos, bordas e centro
- Conhecimento de formas: A diferença entre formas ruins e formas boas
Isso valida a racionalidade da teoria de Go humana — este conhecimento não é coincidência, mas reflexo da essência do Go.
Inovação Além dos Humanos
Mas o Zero também descobriu jogadas que os humanos nunca imaginaram:
- Aberturas não convencionais: Variações sobre aberturas tradicionais
- Sacrifícios agressivos: Mais disposto que humanos a desistir localmente em troca de vantagem global
- Formas contra-intuitivas: "Formas ruins" superficiais que na verdade são a solução ótima
Estas inovações estão mudando a compreensão humana do Go. Muitos jogadores profissionais dizem que estudar os registros de partidas do AlphaGo Zero lhes deu uma compreensão completamente nova do Go.
Resumo dos Detalhes Técnicos
Comparação Completa com o AlphaGo Original
| Aspecto | AlphaGo (Original) | AlphaGo Zero |
|---|---|---|
| Dados de treinamento | Registros humanos + auto-jogo | Puro auto-jogo |
| Método de aprendizado | Supervisionado + por reforço | Puro por reforço |
| Características de entrada | 48 planos | 17 planos |
| Arquitetura de rede | Policy/Value separadas | ResNet de cabeça dupla |
| Profundidade da rede | 13 camadas | 40 camadas (ou mais) |
| Avaliação MCTS | Rede neural + Rollout | Pura rede neural |
| Simulações | ~100.000 por jogada | ~1.600 por jogada |
| TPUs de treinamento | 50+ | 4 |
| TPUs de inferência | 48 | 4 (escalável) |
Algoritmo Central
O ciclo de treinamento do AlphaGo Zero é muito simples:
1. Auto-jogo
- Usar rede atual para MCTS
- Selecionar jogadas pela probabilidade de busca MCTS
- Registrar cada passo (posição, probabilidade MCTS, resultado da partida)
2. Treinar rede
- Amostrar do pool de experiência
- Policy Head: minimizar entropia cruzada com probabilidades MCTS
- Value Head: minimizar erro quadrático médio com resultado real
- Otimizar ambos os objetivos conjuntamente
3. Atualizar rede
- Substituir rede antiga pela nova (verificar que nova é mais forte por auto-jogo)
- Voltar ao passo 1
Este ciclo roda continuamente, e a rede fica cada vez mais forte. Sem dados humanos, sem conhecimento humano, apenas regras do jogo e objetivo de vitória/derrota.
Lições para Pesquisa em IA
Aprendizado de Primeiros Princípios
O AlphaGo Zero demonstrou um método de aprendizado de "primeiros princípios":
Não diga à IA como fazer, apenas diga qual é o objetivo, e deixe-a descobrir o método por conta própria.
Isso forma um contraste marcante com a abordagem tradicional de sistemas especialistas. Sistemas especialistas tentam codificar conhecimento humano na IA, enquanto o AlphaGo Zero deixa a IA descobrir conhecimento por conta própria.
O resultado é: o conhecimento que a IA descobre pode ser mais completo e preciso que o conhecimento humano.
O Poder do Auto-jogo
O AlphaGo Zero provou que o auto-jogo pode gerar dados de treinamento infinitos, e a qualidade desses dados melhora à medida que a rede melhora.
Este é um "ciclo positivo":
- Rede mais forte → Dados de auto-jogo melhores
- Dados melhores → Rede mais forte
Este ciclo pode continuar rodando até atingir o limite teórico do jogo (se existir).
A Importância da Simplificação
O sucesso do AlphaGo Zero prova a importância da "simplificação":
- Simplificar entrada (48 → 17)
- Simplificar arquitetura (rede dupla → rede única)
- Simplificar treinamento (supervisionado + reforço → puro reforço)
Cada simplificação tornou o sistema mais poderoso. Isso nos diz: complexo não significa bom, a solução mais simples frequentemente é a melhor.
Correspondência de Animações
Conceitos centrais discutidos neste artigo e números de animação:
| Número | Conceito | Correspondência Física/Matemática |
|---|---|---|
| 🎬 E7 | Treinamento do zero | Fenômeno de auto-organização |
| 🎬 E5 | Auto-jogo | Convergência de ponto fixo |
| 🎬 E12 | Curva de crescimento de força | Crescimento em forma de S |
| 🎬 D12 | Rede residual | Rodovia de gradientes |
Leitura Adicional
- Próximo artigo: Rede de Cabeça Dupla e Rede Residual — Análise detalhada da arquitetura de rede neural do AlphaGo Zero
- Artigo relacionado: Auto-jogo — Por que o auto-jogo pode produzir nível sobre-humano
- Aprofundamento técnico: O Processo de Treinamento do Zero — Evolução detalhada dos Dias 0-3
Referências
- Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
- Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
- DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
- Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.