Anthropic lança Claude Opus 4.5 com 80,9% de pontuação SWE-bench e queda de preço de 66%

A Anthropic lançou hoje o Claude Opus 4.5, conquistando a melhor pontuação de codificação do setor e introduzindo uma mudança arquitetônica significativa para reduzir custos.

Ao reduzir o preço de 66%, para US$ 5 por milhão de tokens de entrada, e implantar a”Pesquisa de ferramentas”para reduzir a sobrecarga de contexto em 85%, a empresa ataca diretamente a principal barreira econômica aos agentes autônomos de IA.

O modelo atinge uma pontuação de 80,9% no SWE-bench Verificado, superando por pouco os lançamentos recentes do Google e OpenAI para recuperar a coroa de desempenho para tarefas complexas de engenharia de software. Crown

Opus 4.5 chega com uma pontuação de 80,9% no SWE-bench Verified, o atual padrão ouro para avaliar capacidades de engenharia de software autônoma. Superando a concorrência, a pontuação supera o lançamento do Gemini 3 Pro do Google com 76,2% e o GPT-5.1-Codex-Max com 77,9%.

Avaliações internas sugerem que o modelo agora tem pontuações mais altas do que os candidatos humanos nos testes de engenharia realizados pela própria Anthropic. “O Opus 4.5 é um avanço no que os sistemas de IA podem fazer e uma prévia de mudanças maiores na forma como o trabalho é feito”, afirmou a empresa em seu anúncio.

Para equilibrar custo versus capacidade, um novo parâmetro de “esforço” permite que os desenvolvedores ajustem dinamicamente a profundidade de raciocínio do modelo durante chamadas de API. Com esforço “médio”, o Opus 4.5 corresponde ao desempenho máximo do modelo anterior do Sonnet 4.5, mas consome 76% menos tokens de saída.

Elevando o limite máximo da resolução automatizada de problemas, a configuração de esforço “alto” excede as capacidades do Sonnet 4.5 em 4,3 pontos percentuais. Novembro provou ser um mês ativo em IA, com todos os três principais laboratórios implantando seus principais modelos de codificação entre os dias 18 e 24.

A mudança econômica: preços e arquitetura

Abordando as preocupações das empresas sobre a viabilidade de modelos de “raciocínio” caros, a Anthropic reavaliou agressivamente o modelo em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída.

Em comparação com a geração anterior do Opus (US$ 15/US$ 75), a nova tarifa oferece um desconto de 66%, conforme detalhado em Apresentando Claude Opus 4.5.

Nos bastidores, a arquitetura aborda o problema do “inchaço de contexto”. Tradicionalmente, carregar mais de 50 definições de ferramentas poderia consumir aproximadamente 55.000 tokens antes que uma única consulta do usuário fosse processada.

De acordo com a documentação do uso avançado de ferramentas, o novo sistema muda fundamentalmente essa dinâmica:

“Em vez de carregar todas as definições de ferramentas antecipadamente, a Pesquisa de ferramentas A ferramenta descobre ferramentas sob demanda. Claude só vê as ferramentas que realmente precisa para a tarefa atual.”

“Isso representa uma redução de 85% no uso de tokens, mantendo o acesso à sua biblioteca completa de ferramentas. Os testes internos mostraram melhorias significativas na precisão das avaliações do MCP ao trabalhar com grandes bibliotecas de ferramentas.”

Complementando isso está a”Chamada de ferramenta programática”(PTC), que permite que o modelo escreva código de orquestração em vez de depender de turnos baseados em bate-papo.

O a documentação técnica explica ainda mais a mecânica do PTC:

“Em vez de Claude solicitar ferramentas, uma de cada vez, com cada resultado sendo retornado ao seu contexto, Claude escreve um código que chama várias ferramentas, processa suas saídas e controla quais informações realmente entram em sua janela de contexto.”

“Claude é excelente em escrever código e, ao deixá-lo expressar a lógica de orquestração em Python, em vez de invocações de ferramentas em linguagem natural, você obtém um fluxo de controle mais confiável e preciso.”

O PTC elimina o necessidade de etapas de inferência de ida e volta para cada chamada de ferramenta individual, reduzindo significativamente a latência. O processamento de conjuntos de dados extensos, como 200 KB de dados brutos de despesas, torna-se viável, pois o modelo retorna apenas o resultado final de 1 KB para a janela de contexto.

“Para construir agentes eficazes, eles precisam trabalhar com bibliotecas de ferramentas ilimitadas sem colocar todas as definições no contexto antecipadamente”, observou a equipe de engenharia da Anthropic.

Expansão do ecossistema: Chrome, Excel e segurança

Além do modelo principal, “Claude Code” passou de beta para disponibilidade geral, oferecendo um aplicativo de desktop completo para fluxos de trabalho de desenvolvedores. Novas integrações permitem que o modelo controle o navegador Chrome diretamente, indo além da geração de texto para pesquisa ativa e execução de tarefas.

[conteúdo incorporado]

Visando a modelagem financeira, uma integração dedicada ao Excel permite que o modelo manipule planilhas com milhares de linhas.

Dianne Na Penn, chefe de gerenciamento de produtos para pesquisa da Anthropic, enfatizou a importância desse recurso: “Conhecer os detalhes certos para lembrar é muito importante, além de ter apenas uma janela de contexto mais longa.”

[conteúdo incorporado]

A segurança continua sendo um pilar central do lançamento. O cartão do sistema Claude Opus 4.5 destaca investimentos significativos na mitigação de riscos químicos, biológicos, radiológicos e nucleares (CBRN).

O cartão do sistema descreve explicitamente o status de alinhamento do modelo:

“Opus 4.5 é o modelo mais robusto que lançamos para data e, suspeitamos, o modelo de fronteira mais bem alinhado por qualquer desenvolvedor.”

“Opus 4.5 é mais difícil de enganar com injeção imediata do que qualquer outro modelo de fronteira na indústria.”

Realidade do mercado: a era agente

Contextualizando o lançamento, a “Corrida da IA de novembro”viu Google, OpenAI e Anthropic girarem simultaneamente em direção a agentes autônomos. As narrativas passaram de “chatbots” para “agentes” capazes de sustentar tarefas por mais de 24 horas.

Embora a Anthropic lidere em benchmarks brutos (80,9%), a margem é mínima, com menos de 5 pontos percentuais separando os três principais concorrentes. Existe uma compensação importante na nova arquitetura: “Pesquisa de ferramentas”introduz uma etapa de pesquisa que pode adicionar latência em comparação com ter todas as ferramentas pré-carregadas no contexto.

Ao contrário da otimização nativa do Windows da OpenAI com Codex-Max, a Anthropic está apostando em uma abordagem de desktop independente de plataforma. O gerenciamento de memória emergiu como o novo campo de batalha, com OpenAI utilizando “compactação” e Anthropic implantando “Ferramenta de Pesquisa” para resolver o mesmo gargalo da janela de contexto.

Anthropic lança Claude Opus 4.5 com 80,9% de pontuação SWE-bench e queda de preço de 66%

Published by All Things Windows on November 24, 2025

A mudança econômica: preços e arquitetura

Expansão do ecossistema: Chrome, Excel e segurança

Realidade do mercado: a era agente

IT Info

Apple detalha a arquitetura do ‘Neural Accelerator’ M5, confirmando 4x aceleração de IA

IT Info

League Of Legends PBE: como se inscrever e começar a jogar

IT Info

Como usar o Google Lens para identificar qualquer planta

Anthropic lança Claude Opus 4.5 com 80,9% de pontuação SWE-bench e queda de preço de 66%

Published by All Things Windows on November 24, 2025

A mudança econômica: preços e arquitetura

Expansão do ecossistema: Chrome, Excel e segurança

Realidade do mercado: a era agente

Related Posts

IT Info

Apple detalha a arquitetura do ‘Neural Accelerator’ M5, confirmando 4x aceleração de IA

IT Info

League Of Legends PBE: como se inscrever e começar a jogar

IT Info

Como usar o Google Lens para identificar qualquer planta