TL;DR

Declínio de desempenho: o diretor de IA da AMD documentou que Claude Code lê código três vezes menos, reescreve arquivos duas vezes mais e abandona tarefas em taxas nunca antes vistas. Causa raiz: a redação do conteúdo de pensamento da Anthropic em março de 2026 reduziu o raciocínio visível de 100% para zero em apenas oito dias, desencadeando o colapso comportamental. Equipe agitada: A equipe de engenharia da AMD já mudou para um provedor concorrente de codificação de IA, citando a incapacidade de Claude Code de lidar com tarefas complexas de maneira confiável. Correções propostas: Laurenzo pediu à Anthropic que restaurasse a visibilidade do pensamento e introduzisse um nível premium para um raciocínio profundo garantido. Padrão mais amplo: A Anthropic enviou 14 lançamentos juntamente com 5 interrupções em março de 2026, sugerindo que a garantia de qualidade não acompanhou o rápido crescimento.

Stella Laurenzo, diretora de IA da AMD, registrou um problema detalhado no GitHub em 2 de abril, documentando que Claude Code lê código três vezes menos antes de editá-lo, reescreve arquivos inteiros duas vezes mais e abandona tarefas no meio do caminho a taxas que antes eram zero. Sua análise de quase 7.000 sessões fornece números precisos sobre como a ferramenta de codificação da Anthropic se degradou desde o início de março.

Laurenzo, diretor do grupo de IA da AMD, analisou 6.852 sessões do Claude Code, abrangendo 234.760 chamadas de ferramentas e 17.871 blocos de pensamento. Sua análise fornece evidências quantitativas incomumente detalhadas de que a profundidade do raciocínio de Claude Code diminuiu de forma mensurável desde a redação do conteúdo de pensamento implantado pela Anthropic. Sua equipe já mudou para outro fornecedor, citando um NDA por não nomear o substituto. A Anthropic não respondeu às perguntas do The Register sobre as descobertas.

Os dados por trás do declínio

Os dados de Laurenzo revelam degradação progressiva em diversas métricas comportamentais, com o declínio começando antes mesmo do lançamento da redação da Anthropic. De acordo com a análise de Laurenzo, a profundidade de pensamento já havia caído aproximadamente 67% no final de fevereiro, enquanto o conteúdo de pensamento ainda estava totalmente visível para os usuários. Ela caracterizou isso como um sinal preocupante de que algo havia mudado na forma como Claude alocava recursos de raciocínio.

A Anthropic então realizou um lançamento de redação durante uma única semana. De acordo com o arquivo do GitHub, o conteúdo do Thinking passou de 100% visível em 4 de março para 98,5% em 5 de março, depois caiu para 75,3% em 7 de março.

No entanto, o colapso mais acentuado ocorreu dias depois. De acordo com os dados da sessão de Laurenzo, até 8 de março apenas 41,6% do conteúdo pensante permanecia visível. De 10 a 11 de março, menos de 1% estava visível.

De 12 de março em diante, os usuários não puderam ver nenhum processo de raciocínio de seu modelo. Poucos dias depois que a redação atingiu a implantação completa, as métricas comportamentais entraram em colapso em todos os níveis.

As violações do stop-hook aumentaram de zero antes de 8 de março para 173 em apenas 17 dias, conforme relatado pelo The Register. As violações do stop-hook ocorrem quando Claude Code encerra uma tarefa antes de concluí-la, um comportamento que a equipe de Laurenzo não havia observado anteriormente em meses de monitoramento.

Enquanto isso, as edições realizadas sem primeiro ler o arquivo de destino saltaram de 6,2% para 33,7%, um aumento de cinco vezes, significando que Claude Code modificava rotineiramente o código que não havia examinado.

O comportamento de leitura de código se deteriorou em paralelo. Antes do período de degradação, Claude Code lia o código em média 6,6 vezes antes de fazer alterações. No final de março, esse número caiu para apenas 2.

Além disso, de acordo com o documento, as reescritas de arquivos completos dobraram de 4,9% para 11,1% de todas as mutações, indicando que Claude Code estava substituindo arquivos inteiros em vez de fazer edições direcionadas. Todas essas métricas vêm de uma equipe executando mais de 50 sessões simultâneas de agentes fazendo programação de sistemas, uma carga de trabalho que exige raciocínio profundo e sustentado em longas cadeias de tarefas.

Laurenzo enfatizou que sua equipe operava em um ambiente consistente e de alta complexidade, tornando a comparação antes e depois controlada de maneira incomum para dados de uso no mundo real. Um aumento de cinco vezes nas edições cegas combinado com uma queda de três vezes na profundidade de leitura de código significa que as equipes corporativas não podem mais tratar a produção de Claude Code como um ponto de partida confiável para trabalhos complexos.

Como resultado, para fluxos de trabalho de agente em que cada etapa se baseia na anterior, uma única decisão de raciocínio superficial no início de uma cadeia de tarefas se transforma em erros em cascata muito mais caros para depurar do que a tarefa original.

“Quando o pensamento é superficial, o modelo é padronizado. à ação mais barata disponível: editar sem ler, parar sem terminar, esquivar-se da responsabilidade pelas falhas, adotar a solução mais simples em vez da correta. Esses são exatamente os sintomas observados.”

Stella Laurenzo, Diretora do Grupo de IA da AMD (via GitHub issue #42796)

.

Um padrão de problemas do código Claude

A reclamação de Laurenzo chega em meio a uma turbulência mais ampla para a ferramenta de codificação da Anthropic. No final de março, a Anthropic reconheceu problemas de limite de uso, com a empresa afirmando que “as pessoas estão atingindo os limites de uso no Claude Code muito mais rápido do que o esperado” e chamando-o de “a principal prioridade para a equipe”.

Além da demanda pressão, os problemas de limite de utilização parecem ter raízes técnicas mais profundas. Um desenvolvedor que fez engenharia reversa do binário Claude Code relatou ter encontrado erros de cache imediatos que inflacionavam silenciosamente os custos em 10 a 20 vezes. Separadamente, um assinante Claude Max 5 de US$ 100/mês esgotou sua cota em uma única hora.

Além disso, as reclamações de qualidade são anteriores a esse incidente. Os relatórios dos desenvolvedores sobre desempenho degradado remontam a setembro de 2025, quando os usuários sinalizaram o Claude Code executando comandos de shell destrutivos sem autorização. Em janeiro de 2026, os relatórios da comunidade descreveram o downgrade silencioso do modelo e a redução dos limites de uso de token.

Além disso, um bug separado em fevereiro de 2026 afetou a versão 2.1.20, truncando as explicações sobre o que a ferramenta estava lendo. Essas regressões de qualidade recorrentes estabelecem um padrão que os dados de Laurenzo agora quantificam com precisão no nível da sessão.

O ritmo de remessas da Anthropic parece estar agravando o problema de confiabilidade. Somente em março, a empresa lançou 14 lançamentos de produtos juntamente com 5 interrupções, uma proporção que sugere fortemente que a velocidade de lançamento ultrapassou a capacidade de garantia de qualidade. A receita aumentou 5,5x no mesmo período, em meio a um crescimento de 300% no uso desde o lançamento do Claude 4.

Em contraste, o Claude Code ultrapassou um bilhão de dólares em receita anualizada seis meses após o lançamento. Essa trajetória de crescimento torna a lacuna entre a velocidade de adoção e a maturidade da infraestrutura um risco agravado: cada novo usuário amplifica o impacto de cada regressão de confiabilidade.

A comunidade r/ClaudeCode do Reddit ecoou sentimentos semelhantes sobre a degradação do desempenho, sugerindo que a experiência de Laurenzo reflete um padrão mais amplo visível em uma ampla base de usuários, em vez de um único caso isolado.

O que vem a seguir

Apesar de se afastar de Claude Code, Laurenzo classificou seu processo como construtivo. Ela propôs duas soluções concretas: expor contagens de tokens de pensamento por solicitação para que os usuários possam monitorar a profundidade do raciocínio e introduzir um nível premium para raciocínio profundo garantido, onde os engenheiros que executam fluxos de trabalho complexos pagariam mais por desempenho sustentado.

No entanto, ela argumentou que um modelo de assinatura simples não atende usuários cujas cargas de trabalho exigem muito mais tokens de pensamento por solicitação do que os usuários casuais exigem. Com orçamentos de tokens de pensamento variando em ordens de magnitude entre consultas simples e sessões de engenharia complexas, a estrutura de preços precisa refletir o custo real do raciocínio profundo sustentado.

Com base nisso, Laurenzo também pediu que a Anthropic revertesse totalmente a redação do pensamento, argumentando que a visibilidade dos processos de raciocínio ajuda as equipes de engenharia a avaliar em tempo real se a ferramenta está funcionando adequadamente em tarefas complexas. Sem essa visibilidade, as equipes não têm como distinguir entre um modelo que raciocina profundamente e outro que usa atalhos computacionais, deixando fluxos de trabalho de engenharia de alta complexidade expostos à degradação silenciosa.

“Mudamos para outro fornecedor que está fazendo um trabalho de qualidade superior, mas Claude tem sido bom conosco, e estamos deixando isso na esperança de que a Anthropic possa consertar seu produto.”

Stella Laurenzo, Diretora do Grupo de IA da AMD (via GitHub issue #42796)

Laurenzo alertou que os concorrentes fecharam a lacuna em relação ao antigo líder de capacidade de Claude, observando que a Anthropic não está mais sozinha no nível de raciocínio que a Opus ocupava anteriormente. Poucos dias antes de seu pedido, a OpenAI identificou o Claude Code como sua principal ameaça competitiva no espaço de ferramentas de codificação de IA, tornando essa crítica pública particularmente notável comercialmente.

Enquanto isso, os observadores da indústria alertam que, uma vez que os desenvolvedores criam padrões de fallback em torno de ferramentas alternativas e reestruturam seus fluxos de trabalho de acordo, essas mudanças tendem a se tornar soluções alternativas permanentes, em vez de temporárias. que medem sua própria experiência. O fato de a Anthropic responder com correções de transparência ou deixar os dados falarem sem resposta pode determinar a rapidez com que mais clientes de alto valor seguirão o exemplo da AMD.

Categories: IT Info