A Anthrópica lançou o Claude Sonnet 4.5, seu mais recente modelo de IA, que a empresa afirma ser o melhor e mais seguro modelo do mundo para codificar e construir agentes complexos de software. O Claude Sonnet 4.5 demonstra desempenho de ponta nos principais benchmarks da indústria. O lançamento inclui grandes atualizações para as ferramentas de desenvolvedor do Anthropic, como uma nova extensão de código VS e um agente SDK, com o objetivo de permitir tarefas autônomas mais sofisticadas e de longa duração. href=”https://www.anthropic.com/claude-sonnet-4-5-systemcard”Target=”_ Blank”> mitigar os riscos e reduzir comportamentos prejudiciais . Esse movimento o posiciona como um parceiro de IA mais confiável e alinhado para desenvolvedores em uma raça tecnológica que cresce rapidamente.
As reivindicações de supremacia do Antropic são apoiadas por uma lista de métricas impressionantes que posicionam o Soneto 4.5 no topo de várias placares da indústria. Anúncio Destaque seu desempenho de última geração em avaliações exigentes como o SWE-BEMCH VERIFIC, uma referência que mede a capacidade de uma IA de resolver problemas de engenharia de software do mundo real dos repositórios do GitHub.
alcançou uma pontuação de 61,4 %, um salto significativo em relação aos 42,2 % mantidos por seu antecessor, o Sonnet 4, apenas quatro meses antes. Esse desempenho o coloca à frente dos concorrentes como o Gemini 2.5 Pro e o Openai do Google e o Openai do GPT-5 em várias frentes, de acordo com os benchmarks compartilhados pela empresa.
Este salto de desempenho não é apenas incremental; Ele supera notavelmente o principal modelo principal do Anthropic, Opus 4.1. Ao fornecer recursos superiores ao mesmo preço do Soneto 4 mais antigo, o Antrópico está fazendo um forte argumento para a eficiência e o valor, oferecendo aos desenvolvedores acesso ao desempenho de primeira linha sem um prêmio de custo. Relatórios antropia que o Sonnet 4.5 pode operar em projetos complexos e multi-etapas por mais de 30 horas continuamente. Durante os primeiros ensaios, o pesquisador antrópico da IA, David Hershey, disse ao TechCrunch que assistiu ao modelo não apenas construir um aplicativo, mas também suportar serviços de banco de dados, comprar nomes de domínio e executar uma auditoria de segurança do Soc 2 em seu próprio trabalho. maior largura. O feedback inicial de especialistas em finanças, direito, medicina e STEM descobriram que o Sonnet 4.5 possui um conhecimento e raciocínio dramaticamente melhores específicos de domínio do que os modelos anteriores. Como Hershey observou, é difícil capturar o desempenho do Claude Sonnet 4.5 apenas nos benchmarks, destacando a capacidade do modelo de enfrentar os desafios do mundo real, que vão além da geração simples de código. Ecossistema de desenvolvedores do Antrópico. A empresa possui Rolou uma suíte de nova ferramenta poderosa e recursos projetados para tornar o edifício com cláudão/pó. o popular agente de codificação da empresa. Agora, inclui”pontos de verificação”, um recurso altamente solicitado que salva automaticamente o estado do código antes de cada alteração. href=”https://marketplace.visualstudio.com/items?itemname=Antrópica.claude-code”Target=”_ Blank”> Native vs Code Extension , atualmente em beta. Isso traz os recursos do Claude Code diretamente para o IDE, oferecendo uma interface gráfica mais rica e com uma barra lateral dedicada e diferenças embutidas em tempo real. href=”https://www.anthropic.com/news/context-management”Target=”_ Blank”> Ferramentas avançadas de gerenciamento de contexto . A abordagem dupla tem um impacto mensurável. Testes internos mostraram que a combinação dessas ferramentas melhorou o desempenho do agente em tarefas complexas em 39% e reduziu o consumo de token em 84% em uma avaliação de pesquisa de 100 vias da web, permitindo que os agentes concluam os fluxos de trabalho que de outra forma falhariam. href=”https://antrópica.com/engineering/building-agents-with-the-claude-agent-sdk”target=”_ Blank”> liberando o agente Claude sdk . Esta não é apenas uma biblioteca; Ele fornece aos desenvolvedores acesso à mesma infraestrutura principal que alimenta o código Claude. Ele permite a criação de agentes personalizados para fluxos de trabalho especializados, da conformidade financeira à segurança cibernética.
Essa estratégia suporta diretamente a visão de longo prazo da empresa. Como o CEO Dario Amodei declarou anteriormente:”Estamos indo para um mundo onde um desenvolvedor humano pode gerenciar uma frota de agentes, mas acho que o envolvimento humano contínuo será importante para o controle de qualidade…”O novo SDK é um passo fundamental para tornar essa visão uma realidade para todos os desenvolvedores. Sonnet 4.5 como seu”modelo de fronteira mais alinhado até agora”. O cartão oficial do sistema da empresa detalha um extenso treinamento de segurança que levou a reduções substanciais em comportamentos indesejáveis, como bajulação, engano e busca de energia. Isso inclui a implantação de filtros projetados para detectar e impedir a geração de saídas potencialmente perigosas, particularmente aquelas relacionadas a armas químicas, biológicas, radiológicas e nucleares (CBRN). A empresa afirma que o Sonnet 4.5 é significativamente menos propenso a ataques de injeção e outras vulnerabilidades que atormentaram as gerações anteriores de modelos de IA. É uma jogada estratégica em um mercado hipercompetitivo. Apenas algumas semanas atrás, o OpenAI lançou o GPT-5-Codex, um modelo especializado para codificação Agentic. Seu líder de produto, Alexander Embiricos, destacou sua inteligência adaptativa, afirmando: “O GPT-5-Codex pode decidir cinco minutos em um problema que precisa passar mais uma hora.”
Enquanto isso, o Gemini do Google demonstrou recentemente solução de problemas sobre-humanos nas finas mundiais do ICPC. A Meta também entrou na briga com seu modelo Code World, um”depurador neural”focado em entender a lógica do código em vez de apenas escrevê-la. O feedback inicial de parceiros como Cursor e Windsurf é positivo. As tarefas do horizonte,”Enquanto o CEO da Windsurf, Jeff Wang, chamou de”uma nova geração de modelos de codificação”. Para mostrar seu poder, o Antrópico também está oferecendo uma prévia de pesquisa temporária chamada ‘Imagine com Claude’para assinantes Max .