O que a Anthropic fez pra melhorar o acerto da IA nos dados internos?

Não trocou de modelo. Organizou o contexto em volta: definiu uma única fonte de verdade pra cada número, escreveu instruções dizendo onde o Claude deve buscar cada dado e como calcular cada métrica, e amarrou tudo em testes automáticos. Com isso, o acerto saltou de 21% para mais de 95%.

Quais são os 3 passos?

1) Organizar os dados e dizer onde procurar, com uma versão única da verdade por número e instruções escritas. 2) Escrever a conta certa de cada métrica, pra a IA parar de chutar a fórmula. 3) Amarrar tudo em testes (evals) que verificam o acerto e mostram de onde veio cada resposta.

Preciso de um projeto gigante pra começar?

Não. Uns poucos dados canônicos, algumas instruções escritas e algumas dezenas de testes já capturam a maior parte do ganho. Dá pra começar pequeno e ir expandindo.

A Anthropic tirou a própria IA de 21% para 95% de acerto sem trocar de modelo

A Anthropic colocou o próprio Claude pra analisar os dados internos da empresa e o acerto saltou de 21% para mais de 95%. O detalhe que importa: foi o mesmo modelo e os mesmos dados. O que mudou foi tudo que estava em volta.

A lição é direta e vale pra qualquer empresa que quer botar IA pra conversar com os próprios dados: na maioria das vezes, o problema não é o modelo, é o contexto que você entrega a ele. Abaixo, os três passos que fizeram a diferença, segundo o write-up oficial da Anthropic.

Passo 1: organizar os dados e dizer onde procurar

O primeiro passo é ter uma única versão da verdade pra cada número e instruções escritas dizendo pro Claude onde buscar cada coisa antes de responder.

Quando existem três planilhas com três valores diferentes pra “receita”, a IA acerta por sorte. Definir a fonte canônica de cada métrica e registrar isso em arquivos de instrução (como um CLAUDE.md e skills) faz o modelo parar de adivinhar de onde tirar o dado. É a diferença entre mandar alguém “procurar a receita em algum lugar” e dizer exatamente em qual tabela e qual coluna olhar.

Passo 2: escrever a conta certa de cada número

O segundo passo é documentar como cada métrica é calculada: “retenção se calcula assim”, “receita é isto aqui”.

Toda empresa tem definições próprias. Retenção pode ser mensal ou trimestral; receita pode ou não incluir reembolsos. Se essas regras vivem só na cabeça das pessoas, a IA chuta a fórmula e erra de um jeito convincente, que é o pior tipo de erro. Quando a conta está escrita, o modelo para de inventar e passa a ler o dado do jeito que a empresa realmente usa.

Passo 3: amarrar tudo em testes (evals)

O terceiro passo é criar testes automáticos que verificam se a IA está acertando, com o próprio Claude rodando os evals.

Aqui mora a confiança. Os testes mostram quando algo quebrou e, de quebra, o Claude sempre diz de onde tirou a resposta. Você bate o olho, confere a origem e não precisa acreditar no número às cegas. Sem essa camada, você nunca sabe se a IA acertou de verdade ou se teve sorte na pergunta daquele dia.

Dá pra começar pequeno

O ganho não exige um projeto gigante. Uns poucos dados canônicos, algumas instruções escritas e algumas dezenas de testes já pegam a maior parte do salto de acerto. O caminho é incremental: você organiza o terreno de uma métrica, testa, confia, e parte pra próxima.

O recado que fica é estratégico. Antes de trocar de modelo ou esperar a próxima versão “mais inteligente”, vale olhar pro contexto que você está entregando. Foi mudando só isso que a Anthropic multiplicou o acerto por mais de quatro vezes.

Tema do episódio 19 do Ratos de IA, nossa curadoria semanal de inteligência artificial, publicado originalmente como carrossel no Instagram @ratosdeia. Fonte original: “How Anthropic enables self-service data analytics with Claude”, da própria Anthropic.

Esse mesmo princípio (a IA fica boa quando você organiza o contexto) é o que move as skills que gerenciam tráfego pago pelo Claude Code.