Visão Geral do AlphaGo Zero

Em outubro de 2017, a DeepMind publicou um resultado que chocou o mundo da IA: AlphaGo Zero, sem usar qualquer registro de partidas humanas, começando a treinar de um estado completamente aleatório, superou o AlphaGo original que derrotou Lee Sedol em apenas três dias, e venceu por 100:0.

Isso não é apenas um progresso numérico. Representa um novo paradigma: A IA não precisa de conhecimento humano, pode descobrir tudo do zero.

Por que Não Precisa de Registros de Partidas Humanas?

Limitações dos Registros de Partidas Humanas

O processo de treinamento do AlphaGo original era dividido em duas etapas:

Aprendizado supervisionado: Treinar a Policy Network com 30 milhões de partidas humanas
Aprendizado por reforço: Melhorar ainda mais através de auto-jogo

Este método tem vários problemas fundamentais:

1. Os registros humanos têm um teto

A habilidade dos jogadores humanos tem limites, os registros contêm a compreensão humana, mas também incluem erros e vieses humanos. Quando a IA aprende com registros humanos, ela aprende:

Jogadas que os humanos consideram boas (mas não necessariamente ótimas)
Padrões de pensamento humano (que podem limitar a inovação)
Erros humanos (que são aprendidos como exemplos corretos)

2. O gargalo do aprendizado supervisionado

O objetivo do aprendizado supervisionado é "imitar humanos" — prever qual jogada um jogador humano faria. Isso significa que o limite de capacidade da IA é limitado pela habilidade dos jogadores humanos.

É como um aprendiz que só pode imitar o mestre, nunca podendo superar o mestre.

3. Custo de coleta de dados

Registros de partidas humanas de alta qualidade levam muitos anos para acumular, e só existem para jogos com longa história como o Go. Se quisermos aplicar IA a novos campos (como previsão de estrutura de proteínas), simplesmente não existem "registros de especialistas humanos".

O Avanço do Zero

O AlphaGo Zero pula completamente a etapa de aprendizado supervisionado, começando diretamente o auto-jogo a partir de inicialização aleatória. Isso resolve todos os problemas acima:

Problema	AlphaGo Original	AlphaGo Zero
Limite do conhecimento humano	Limitado pela qualidade dos registros	Sem esta limitação
Objetivo de aprendizado	Imitar humanos	Maximizar taxa de vitória
Requisitos de dados	30 milhões de partidas	0
Generalizabilidade	Apenas Go	Pode ser generalizado para outros campos

Esta é uma mudança de paradigma fundamental: de "aprender conhecimento humano" para "descobrir conhecimento a partir de primeiros princípios".

Comparação com o AlphaGo Original: 100:0

Vitória Esmagadora

A DeepMind fez o AlphaGo Zero treinado jogar contra várias versões do AlphaGo:

Oponente	Resultado do AlphaGo Zero
AlphaGo Fan (versão que derrotou Fan Hui)	100:0
AlphaGo Lee (versão que derrotou Lee Sedol)	100:0
AlphaGo Master (versão das 60 vitórias consecutivas)	89:11

100:0 — isso significa que em 100 partidas, o AlphaGo original não conseguiu vencer sequer uma.

Menos Recursos, Mais Força

Não apenas venceu, o AlphaGo Zero também alcançou maior força de jogo com menos recursos:

Métrica	AlphaGo Lee	AlphaGo Zero
Tempo de treinamento	Vários meses	40 dias (3 dias para superar AlphaGo Lee)
Partidas de treinamento	30 milhões de partidas humanas + auto-jogo	4,9 milhões de partidas de auto-jogo
TPUs (treinamento)	50+	4
TPUs (inferência)	48	4
Características de entrada	48 planos	17 planos
Rede neural	Redes duplas SL + RL	Única rede de cabeça dupla

Esta é uma melhoria de eficiência impressionante: recursos reduzidos em mais de 10 vezes, mas a força de jogo aumentou significativamente.

Por que o Zero é Mais Forte?

As razões pelas quais o AlphaGo Zero é mais forte podem ser entendidas de vários ângulos:

1. Aprendizado sem viés

O AlphaGo original aprendeu com registros humanos, herdando vieses humanos. Por exemplo, jogadores humanos podem supervalorizar certos josekis, ou ter avaliações incorretas de certas posições.

O AlphaGo Zero não tem essa bagagem. Ele começa de uma tela em branco, aprendendo o que é uma boa jogada apenas através dos resultados de vitória/derrota. Isso permite descobrir jogadas que os humanos nunca imaginaram.

2. Objetivo de aprendizado consistente

O treinamento do AlphaGo original tinha dois objetivos diferentes:

Aprendizado supervisionado: Maximizar a precisão de previsão das jogadas humanas
Aprendizado por reforço: Maximizar a taxa de vitória

Estes dois objetivos podem entrar em conflito. O AlphaGo Zero tem apenas um objetivo: maximização da taxa de vitória. Isso torna o processo de aprendizado mais consistente e eficaz.

3. Arquitetura mais simples

O AlphaGo original usava Policy Network e Value Network separadas. O AlphaGo Zero usa uma única rede de cabeça dupla (veja o próximo artigo), permitindo que a representação de características seja compartilhada, aumentando a eficiência de aprendizado.

Características de Entrada Simplificadas: De 48 para 17

48 Planos de Características do AlphaGo Original

A entrada da rede neural do AlphaGo original incluía 48 planos de características 19x19, codificando muitas características projetadas por humanos:

Categoria	Número de características	Conteúdo
Posições das pedras	3	Pedras pretas, pedras brancas, pontos vazios
Liberdades	8	Grupos com 1-8 liberdades
Capturas	8	Pode capturar 1-8 pedras
Ko	1	Posição do ko
Distância da borda	4	Primeira a quarta linha
Legalidade de jogada	1	Quais posições podem ser jogadas
Estado histórico	8	Posições das últimas 8 jogadas
Turno	1	Pretas ou brancas
Outros	14	Escada, olhos, etc.

Estas 48 características foram cuidadosamente projetadas por especialistas de Go, contendo muito conhecimento do domínio.

17 Planos de Características do AlphaGo Zero

O AlphaGo Zero simplificou drasticamente a entrada, usando apenas 17 planos de características:

Número do plano	Conteúdo	Quantidade
1-8	Posições das pedras pretas (últimas 8 jogadas)	8
9-16	Posições das pedras brancas (últimas 8 jogadas)	8
17	Turno atual (todo 1 ou todo 0)	1

Estes 17 planos contêm apenas:

Estado atual do tabuleiro: Cada posição tem pedra preta, pedra branca ou vazia
Informação histórica: Estado do tabuleiro das últimas 8 jogadas
Informação de turno: De quem é a vez de jogar

Sem liberdades, sem julgamento de escada, sem distância da borda — todo esse "conhecimento de Go" é deixado para a rede neural aprender sozinha.

Por que a Simplificação é Boa?

1. Deixar a rede descobrir características

Características manuais complexas podem perder informações importantes, ou codificar suposições incorretas. Deixar a rede neural aprender a partir de dados brutos pode levar a descobrir melhores representações de características.

De fato, o AlphaGo Zero aprendeu todas as características que os humanos projetaram (liberdades, escadas, etc.), e também aprendeu alguns padrões que os humanos não tinham consciência explícita.

2. Melhor generalizabilidade

Muitas das 48 características são específicas do Go (como escadas, distância da borda). Os 17 planos simplificados são genéricos — qualquer jogo de tabuleiro pode ser codificado de forma similar.

Isso estabeleceu as bases para o posterior AlphaZero (IA de jogos genérica).

3. Redução de erros humanos

Características projetadas manualmente podem conter definições incorretas ou incompletas. Simplificar a entrada elimina a possibilidade desses problemas.

Arquitetura de Rede Única

Design de Rede Dupla da Versão Original

O AlphaGo original usava duas redes neurais independentes:

Policy Network:  Entrada → CNN → Probabilidades de jogada 19x19
Value Network:   Entrada → CNN → Estimativa de taxa de vitória (-1 a 1)

Estas duas redes:

Tinham arquiteturas diferentes (número de camadas e canais ligeiramente diferentes)
Eram treinadas independentemente (primeiro Policy, depois Value)
Não compartilhavam nenhum parâmetro

Rede de Cabeça Dupla do Zero

O AlphaGo Zero usa uma única rede, mas com duas cabeças de saída (heads):

Entrada → Backbone ResNet compartilhado → Policy Head → Probabilidades de jogada 19x19
                                       → Value Head  → Estimativa de taxa de vitória

As duas Heads compartilham o mesmo backbone ResNet (veja o próximo artigo: Rede de Cabeça Dupla e Rede Residual), o que traz várias vantagens:

1. Eficiência de parâmetros

Backbone compartilhado significa que a maioria dos parâmetros é usada por ambas as tarefas. Isso reduz o número total de parâmetros e diminui o risco de overfitting.

2. Compartilhamento de características

"Onde devo jogar" (Policy) e "Quem vai ganhar" (Value) precisam entender padrões de tabuleiro similares. O backbone compartilhado permite que essas características sejam aprendidas e utilizadas por ambas as tarefas simultaneamente.

3. Estabilidade de treinamento

O treinamento conjunto faz com que os sinais de gradiente venham de duas fontes, fornecendo sinais de supervisão mais ricos, tornando o treinamento mais estável.

O Poder da Rede Residual

O backbone do AlphaGo Zero usa uma rede residual (ResNet) de 40 camadas, muito mais profunda que a CNN de 13 camadas do AlphaGo original.

As conexões residuais (skip connections) permitem que redes profundas sejam treinadas efetivamente, evitando o problema do gradiente desvanecente. Esta foi a tecnologia inovadora da competição ImageNet de 2015, aplicada com sucesso pelo AlphaGo Zero ao campo do Go.

Melhoria na Eficiência de Treinamento

Crescimento Exponencial do Auto-jogo

O processo de treinamento do AlphaGo Zero demonstra uma eficiência impressionante:

Tempo de Treinamento	Classificação ELO	Equivalente a
0 horas	0	Jogando aleatoriamente
3 horas	~1000	Descobriu regras básicas
12 horas	~3000	Descobriu josekis
36 horas	~4500	Superou versão Fan Hui
60 horas	~5200	Superou versão Lee Sedol
72 horas	~5400	Superou AlphaGo original
40 dias	~5600	Versão mais forte

Três dias para superar humanos, três dias para superar IA que levou meses para treinar — isso é uma melhoria de eficiência exponencial.

Por que Tão Rápido?

1. Guia de busca mais forte

O MCTS do AlphaGo Zero é completamente guiado pela rede neural, não usa mais a política de jogada rápida (rollout). Isso torna a busca mais eficiente e precisa.

2. Auto-jogo mais rápido

Como precisa de apenas uma rede (em vez de duas), o custo computacional de cada partida de auto-jogo é reduzido. Isso significa que mais dados de treinamento podem ser gerados no mesmo tempo.

3. Aprendizado mais eficaz

O treinamento conjunto da rede de cabeça dupla faz com que a informação de cada partida seja utilizada de forma mais eficiente. Os gradientes de Policy e Value se reforçam mutuamente, acelerando a convergência.

Comparação com Aprendizado Humano

Quanto tempo jogadores humanos precisam para alcançar diferentes níveis?

Nível	Tempo necessário humano	AlphaGo Zero
Iniciante	Várias semanas	Alguns minutos
Amateur 1 dan	Vários anos	Algumas horas
Nível profissional	10-20 anos	1-2 dias
Campeão mundial	20+ anos de dedicação em tempo integral	3 dias
Superar humanos	Impossível	3 dias

Esta comparação não é para diminuir jogadores humanos — eles usam neurônios biológicos, enquanto o AlphaGo Zero usa TPUs especialmente projetados e vários quilowatts de eletricidade. Mas isso realmente demonstra quão eficiente o método de aprendizado correto pode ser.

Generalidade: Xadrez, Shogi

O Nascimento do AlphaZero

Em dezembro de 2017, a DeepMind publicou o AlphaZero — a versão genérica do AlphaGo Zero. O mesmo algoritmo, apenas modificando as regras do jogo, alcançou nível mundial em três jogos de tabuleiro:

Jogo	Tempo de Treinamento	Oponente	Resultado
Go	8 horas	AlphaGo Zero	60:40
Xadrez	4 horas	Stockfish 8	28 vitórias 72 empates 0 derrotas
Shogi	2 horas	Elmo	90:8:2

Note os oponentes:

Stockfish era a engine de xadrez mais forte na época, usando décadas de conhecimento humano e otimização
Elmo era a IA de shogi mais forte na época

O AlphaZero com algumas horas de treinamento superou esses sistemas especializados que levaram anos para desenvolver.

O Significado da Generalidade

AlphaGo Zero / AlphaZero provou algo importante:

O mesmo algoritmo de aprendizado pode alcançar nível sobre-humano em diferentes domínios.

Não são três IAs diferentes, mas um framework de aprendizado genérico:

Auto-jogo gera experiência
Busca em Árvore de Monte Carlo explora possibilidades
Rede Neural aprende função de política e valor
Aprendizado por reforço otimiza a função objetivo

Este framework não depende de conhecimento específico do domínio, isso é um passo importante para a generalização da IA.

Impacto na IA Tradicional

Antes do AlphaZero, as IAs mais fortes de xadrez e shogi eram do estilo "sistema especialista":

Muito conhecimento humano: Livros de abertura, tabelas de finais, funções de avaliação
Décadas de otimização: Sangue e suor de incontáveis jogadores e engenheiros
Altamente especializadas: Stockfish não consegue jogar Go, Elmo não consegue jogar xadrez

O AlphaZero superou tudo isso em horas com um algoritmo genérico. Isso fez muitos pesquisadores de IA reconsiderarem:

Devemos investir mais esforços em "algoritmos de aprendizado genéricos" ou "codificação de conhecimento especializado"?

A resposta parece cada vez mais clara: deixar a máquina aprender sozinha é mais eficaz do que ensiná-la conhecimento.

Estilo de Jogo do AlphaGo Zero

Estética Além dos Humanos

O mundo do Go tem uma avaliação comum das jogadas do AlphaGo Zero: mais elegantes.

As jogadas do AlphaGo Lee às vezes pareciam "estranhas" — como a jogada 37, onde os humanos precisaram de análise posterior para entender sua profundidade. Mas as jogadas do AlphaGo Zero são frequentemente avaliadas posteriormente como "imediatamente reconhecíveis como boas jogadas".

Isso pode ser porque:

Força de jogo mais forte: Zero pode ver mais profundamente, jogar com mais calma
Sem vieses humanos: Não limitado por josekis tradicionais
Objetivo consistente: Busca apenas taxa de vitória, não imita humanos

Redescoberta da Teoria de Go Humana

Curiosamente, o AlphaGo Zero "redescobriu" o conhecimento de Go que os humanos acumularam ao longo de milhares de anos durante o treinamento:

Josekis: Zero descobriu sozinho muitos josekis comuns, porque estes são de fato as soluções ótimas para ambos os lados
Princípios de abertura: A ordem de importância de cantos, bordas e centro
Conhecimento de formas: A diferença entre formas ruins e formas boas

Isso valida a racionalidade da teoria de Go humana — este conhecimento não é coincidência, mas reflexo da essência do Go.

Inovação Além dos Humanos

Mas o Zero também descobriu jogadas que os humanos nunca imaginaram:

Aberturas não convencionais: Variações sobre aberturas tradicionais
Sacrifícios agressivos: Mais disposto que humanos a desistir localmente em troca de vantagem global
Formas contra-intuitivas: "Formas ruins" superficiais que na verdade são a solução ótima

Estas inovações estão mudando a compreensão humana do Go. Muitos jogadores profissionais dizem que estudar os registros de partidas do AlphaGo Zero lhes deu uma compreensão completamente nova do Go.

Resumo dos Detalhes Técnicos

Comparação Completa com o AlphaGo Original

Aspecto	AlphaGo (Original)	AlphaGo Zero
Dados de treinamento	Registros humanos + auto-jogo	Puro auto-jogo
Método de aprendizado	Supervisionado + por reforço	Puro por reforço
Características de entrada	48 planos	17 planos
Arquitetura de rede	Policy/Value separadas	ResNet de cabeça dupla
Profundidade da rede	13 camadas	40 camadas (ou mais)
Avaliação MCTS	Rede neural + Rollout	Pura rede neural
Simulações	~100.000 por jogada	~1.600 por jogada
TPUs de treinamento	50+	4
TPUs de inferência	48	4 (escalável)

Algoritmo Central

O ciclo de treinamento do AlphaGo Zero é muito simples:

1. Auto-jogo
   - Usar rede atual para MCTS
   - Selecionar jogadas pela probabilidade de busca MCTS
   - Registrar cada passo (posição, probabilidade MCTS, resultado da partida)

2. Treinar rede
   - Amostrar do pool de experiência
   - Policy Head: minimizar entropia cruzada com probabilidades MCTS
   - Value Head: minimizar erro quadrático médio com resultado real
   - Otimizar ambos os objetivos conjuntamente

3. Atualizar rede
   - Substituir rede antiga pela nova (verificar que nova é mais forte por auto-jogo)
   - Voltar ao passo 1

Este ciclo roda continuamente, e a rede fica cada vez mais forte. Sem dados humanos, sem conhecimento humano, apenas regras do jogo e objetivo de vitória/derrota.

Lições para Pesquisa em IA

Aprendizado de Primeiros Princípios

O AlphaGo Zero demonstrou um método de aprendizado de "primeiros princípios":

Não diga à IA como fazer, apenas diga qual é o objetivo, e deixe-a descobrir o método por conta própria.

Isso forma um contraste marcante com a abordagem tradicional de sistemas especialistas. Sistemas especialistas tentam codificar conhecimento humano na IA, enquanto o AlphaGo Zero deixa a IA descobrir conhecimento por conta própria.

O resultado é: o conhecimento que a IA descobre pode ser mais completo e preciso que o conhecimento humano.

O Poder do Auto-jogo

O AlphaGo Zero provou que o auto-jogo pode gerar dados de treinamento infinitos, e a qualidade desses dados melhora à medida que a rede melhora.

Este é um "ciclo positivo":

Rede mais forte → Dados de auto-jogo melhores
Dados melhores → Rede mais forte

Este ciclo pode continuar rodando até atingir o limite teórico do jogo (se existir).

A Importância da Simplificação

O sucesso do AlphaGo Zero prova a importância da "simplificação":

Simplificar entrada (48 → 17)
Simplificar arquitetura (rede dupla → rede única)
Simplificar treinamento (supervisionado + reforço → puro reforço)

Cada simplificação tornou o sistema mais poderoso. Isso nos diz: complexo não significa bom, a solução mais simples frequentemente é a melhor.

Correspondência de Animações

Conceitos centrais discutidos neste artigo e números de animação:

Número	Conceito	Correspondência Física/Matemática
🎬 E7	Treinamento do zero	Fenômeno de auto-organização
🎬 E5	Auto-jogo	Convergência de ponto fixo
🎬 E12	Curva de crescimento de força	Crescimento em forma de S
🎬 D12	Rede residual	Rodovia de gradientes

Leitura Adicional

Próximo artigo: Rede de Cabeça Dupla e Rede Residual — Análise detalhada da arquitetura de rede neural do AlphaGo Zero
Artigo relacionado: Auto-jogo — Por que o auto-jogo pode produzir nível sobre-humano
Aprofundamento técnico: O Processo de Treinamento do Zero — Evolução detalhada dos Dias 0-3

Referências

Silver, D., et al. (2017). "Mastering the game of Go without human knowledge." Nature, 550, 354-359.
Silver, D., et al. (2018). "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play." Science, 362(6419), 1140-1144.
DeepMind. (2017). "AlphaGo Zero: Starting from scratch." DeepMind Blog.
Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model." Nature, 588, 604-609.

Por que Não Precisa de Registros de Partidas Humanas?​

Limitações dos Registros de Partidas Humanas​

1. Os registros humanos têm um teto​

2. O gargalo do aprendizado supervisionado​

3. Custo de coleta de dados​

O Avanço do Zero​

Comparação com o AlphaGo Original: 100:0​

Vitória Esmagadora​

Menos Recursos, Mais Força​

Por que o Zero é Mais Forte?​

1. Aprendizado sem viés​

2. Objetivo de aprendizado consistente​

3. Arquitetura mais simples​

Características de Entrada Simplificadas: De 48 para 17​

48 Planos de Características do AlphaGo Original​

17 Planos de Características do AlphaGo Zero​

Por que a Simplificação é Boa?​

1. Deixar a rede descobrir características​

2. Melhor generalizabilidade​

3. Redução de erros humanos​

Arquitetura de Rede Única​

Design de Rede Dupla da Versão Original​

Rede de Cabeça Dupla do Zero​

1. Eficiência de parâmetros​

2. Compartilhamento de características​

3. Estabilidade de treinamento​

O Poder da Rede Residual​

Melhoria na Eficiência de Treinamento​

Crescimento Exponencial do Auto-jogo​

Por que Tão Rápido?​

1. Guia de busca mais forte​

2. Auto-jogo mais rápido​

3. Aprendizado mais eficaz​

Comparação com Aprendizado Humano​

Generalidade: Xadrez, Shogi​

O Nascimento do AlphaZero​

O Significado da Generalidade​

Impacto na IA Tradicional​

Estilo de Jogo do AlphaGo Zero​

Estética Além dos Humanos​

Redescoberta da Teoria de Go Humana​

Inovação Além dos Humanos​

Resumo dos Detalhes Técnicos​

Comparação Completa com o AlphaGo Original​

Algoritmo Central​

Lições para Pesquisa em IA​

Aprendizado de Primeiros Princípios​

O Poder do Auto-jogo​

A Importância da Simplificação​

Correspondência de Animações​

Leitura Adicional​

Referências​