A qualidade caiu por causa da velocidade?

Não. Segundo Boris Cherny, um dos chefes do Claude Code, os incidentes caíram 5% em relação a antes, mesmo com muito mais código sendo entregue. Produtividade contra qualidade costuma ser tratado como troca, mas nesse caso as duas linhas subiram juntas, porque os agentes testavam o próprio trabalho antes de virar problema em produção.

Dá pra copiar isso sem ser uma empresa gigante?

Sim. O ganho está na organização, não no tamanho da empresa. Base de dados e arquivos bagunçada faz a IA responder rápido e errado; base arrumada faz o mesmo modelo virar confiável. Dá pra começar pequeno: um projeto só, com poucas regras de qualidade escritas e alguns testes automáticos já mostra o efeito.

A Salesforce entregou em 13 dias um projeto de 231 dias com IA agêntica

Q: Como a Salesforce entregou em 13 dias um projeto de 231 dias?

A Salesforce usou a parte agêntica do Claude Code numa migração de código estimada em 231 dias pelos próprios engenheiros e terminou em 13, com 100% de cobertura de teste automatizado. O ganho não veio de um modelo melhor, e sim da estrutura montada em volta: regras de qualidade e limites claros escritos antes de soltar o agente, e agentes testando o próprio trabalho dentro do fluxo.

A Salesforce pegou uma migração de código que os próprios engenheiros estimaram em 231 dias e entregou em 13, usando a parte agêntica do Claude Code, com 100% de cobertura de teste automatizado. E o detalhe que mais importa: a qualidade não caiu pra ganhar velocidade. Ela subiu junto.

Quando você lê um número desses, a primeira reação certa é desconfiar. Entrega numa fração do tempo costuma cobrar a conta depois, em bug, retrabalho e coisa quebrando em produção. Este post explica por que, dessa vez, a conta não chegou, e o que dá pra tirar do caso mesmo sem ser uma das maiores empresas de software do mundo.

O número: 231 dias estimados, 13 entregues

A Salesforce publicou um write-up oficial contando que usou o Claude Code agêntico numa migração de código estimada internamente em 231 dias e fechou em 13. Junto, 100% de cobertura de teste automatizado.

Migração de código é exatamente o tipo de trabalho demorado e arriscado: muita peça interligada, fácil de quebrar algo sem perceber. Reduzir de 231 para 13 dias é um corte de mais de 18 vezes no tempo. É o tipo de número que normalmente vem acompanhado de uma pegadinha escondida.

O dado estranho: os incidentes caíram 5%

A pegadinha não apareceu. Boris Cherny, um dos chefes do Claude Code, destacou que, mesmo com muito mais código sendo entregue, os incidentes caíram 5% em relação a antes.

Isso normalmente não acontece. Produtividade contra qualidade quase sempre é tratado como troca: sobe uma, cai a outra. Aqui as duas linhas subiram. Entregaram mais, entregaram mais rápido e ainda quebraram menos coisa do que antes. Esse resultado não sai sozinho de uma IA largada cuspindo código. Teve algo segurando a barra.

O que segurou a barra: estrutura, não modelo

O que segurou a barra não foi uma IA mais esperta. Foi a estrutura montada em volta dela antes de o agente começar a trabalhar.

A Salesforce não soltou o agente solto. Montou um conjunto de cercas de segurança e padrões de qualidade, com limites claros do que a IA podia fazer, tudo escrito antes de deixar ela tocar sozinha. E, melhor ainda, os próprios agentes testavam o próprio trabalho dentro do fluxo. Se saísse errado, a estrutura pegava o erro antes de virar incidente. O ganho não veio de comprar um modelo melhor; veio de tudo que eles montaram em volta dele.

Não é só coisa de gigante

O mesmo padrão aparece longe da Salesforce, em qualquer operação que use IA. A diferença entre a IA ajudar ou atrapalhar quase nunca é o modelo que você usa. É se os seus dados e arquivos estão organizados ou numa zona.

Base bagunçada, a IA responde rápido e errado, com a maior cara de certeza, que é o pior tipo de erro. Base arrumada, o mesmo modelo vira confiável. Por isso o que rende não é caçar a IA perfeita, e sim arrumar a casa antes de soltar o agente. Esse é o mesmo princípio que a Anthropic usou pra tirar a própria IA de 21% para 95% de acerto nos dados internos, sem trocar de modelo, só organizando o contexto. E é a mesma lógica por trás das skills que gerenciam tráfego pago pelo Claude Code: a IA fica boa quando você organiza as ferramentas e o contexto em volta dela.

Leia com um pé atrás (mas o caso é sólido)

Antes de sair replicando, vale um disclaimer honesto: a Salesforce tem quase 5% da Anthropic e é uma das maiores investidoras dela. Ou seja, é uma empresa elogiando uma ferramenta na qual ela mesma botou dinheiro. Dá pra ler com ressalva.

Mesmo assim, o caso parece sólido, e o recado serve pra qualquer um, não só pra gigante: o ganho está na organização, não no tamanho da empresa. A IA não entrega 18x de graça. Ela vai rápido em cima do que está organizado. Joga ela numa base bagunçada e ela só faz a bagunça mais rápido. A Salesforce arrumou a casa primeiro, depois soltou o agente. Aquele trabalho chato de organizar os dados e os arquivos antes é o que decide se você colhe um projeto de 231 dias em 13, ou só um monte de bug mais rápido.

A boa notícia é que dá pra começar pequeno: um projeto só, com poucas regras de qualidade escritas e alguns testes automáticos, já mostra o efeito.

Tema do episódio 19 do Ratos de IA, nossa curadoria semanal de inteligência artificial, publicado originalmente como carrossel no Instagram @ratosdeia. Fonte original: “How Engineering Became Agentic”, write-up da própria Salesforce, e o tweet de Boris Cherny sobre a queda de 5% nos incidentes.