A Antrópica lançou seus modelos de inteligência artificial de próxima geração, Claude Opus 4 e Claude Sonnet 4. A empresa afirma que esses modelos estabelecem novos benchmarks da indústria para codificação, raciocínio sofisticado e funcionalidades de AI, com melhor desempenho do mundo. fluxos de trabalho.”, Supostamente capaz de trabalhar sustentado em tarefas complexas e de longa duração por até sete horas. Esse desenvolvimento avança significativamente as ferramentas de IA para a solução complexa de resolução de problemas e criação de software, fornecendo aos desenvolvedores e empresas sistemas mais potentes e potencialmente autônomos. Eles também apresentam memória aprimorada, criando”arquivos de memória”quando os desenvolvedores concedem acesso ao arquivo local, o que aprimora a continuidade sobre tarefas estendidas.
Antrópica também disponibilizou sua plataforma de código Claude geralmente, incluindo novas integrações de ambiente de desenvolvimento integrado (IDE). A empresa divulgou vários novos recursos da API para apoiar a criação de poderosos agentes de IA. A empresa diz que, com Claude 4, eles não estão apenas melhorando os benchmarks, mas a criação de um verdadeiro parceiro colaborativo para trabalhos complexos. Esta decisão segue o teste interno que destacou a proficiência do modelo em aconselhar na produção de armas biológicas. A modelagem sugere um potencial preocupante: “Você pode tentar sintetizar algo como Covid ou uma versão mais perigosa da gripe-e, basicamente, nossa modelagem sugere que isso pode ser possível.”
Kaplan enfatizou que, embora não confirme definitivamente o risco do modelo, o Antrópico é optar por cautela. Essa estratégia dupla de avançar a energia de IA, enquanto aumenta os protocolos de segurança destaca os desafios complexos no campo da IA. Atingiu uma pontuação de 72,5% no SWE-banch para engenharia de software e 43,2% no banco do terminal. Sua capacidade de trabalhar de forma autônoma para quase um dia de trabalho corporativo de sete horas de sete horas em tarefas complexas de codificação marca um passo notável.
Mike Krieger, diretor de produtos do Anthropic, informado cnb A maior parte da minha escrita é na verdade… Opus principalmente, e agora é irreconhecível com a minha escrita.”
Claude Sonnet 4 também mostra fortes habilidades de codificação, pontuando 72,7% na bancada de SWE e é apresentada como uma mistura ideal de capacidade de ponta e eficiência prática. Ambos os modelos têm 65% menos chances de usar atalhos ou explorar brechas em comparação com o Soneto 3.7 anterior, especialmente em tarefas agênticas. Os primeiros parceiros forneceram feedback positivo. O Soneto 4 do Github 4 “sobe em cenários agênticos” e o integrará como base para seu novo agente de codificação no copiloto do GitHub. Os modelos Claude 4 mostram pontuações principais em referências de codificação como SWE-banco e banco de terminal, seu desempenho em outras avaliações importantes da IA apresenta uma imagem competitiva e diferenciada. e o soneto 4 (75,4%) são fortes candidatos, com o Opus 4 correspondendo ao OpenAi O3 ao usar os métodos de”alta computação”do antropal. No entanto, no raciocínio visual (validação MMMU), o OpenAi O3 (82,9%) e Gemini 2,5 Pro (79,6%) mantêm uma vantagem sobre o Claude Opus 4 (76,5%). src=”Data: imagem/svg+xml; nitro-inempty-id=mtcwmzoxntay-1; base64, phn2zyb2awv3qm94psiwidagmtaynca4mz Qiihdpzhropsixmdi0iiBozwlnahq9ijgzncigEg1sbnm9Imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Da mesma forma, nas competições de matemática do ensino médio (AIME 2025), OpenAI O3 (88,9%) e Gemini 2,5 Pro (83,0%) lideram em avaliações padrão, embora Claude Opus 4 mostre melhorias significativas e possa atingir 90,0%com métodos de”alta computação”, superando outros. Observa que essas abordagens de’alta computação’, envolvendo processamento paralelo mais intensivo, podem elevar ainda mais as pontuações do Claude 4 em vários benchmarks. Essa plataforma agora se integra diretamente aos fluxos de trabalho do desenvolvedor por meio de extensões para o código VS e JetBrains. O Antrópico também está lançando um codificado Claude extensível SDK, permitindo que os desenvolvedores construam agentes personalizados. Um exemplo é o novo beta do Claude Code no Github, que pode responder ao feedback do revisor ou corrigir erros de integração contínua (IC), um processo para automatizar a construção e teste de software. Isso inclui uma ferramenta de execução de código, um conector de protocolo de contexto de modelo (MCP), uma API de arquivos e um cache rápido por até uma hora.
O conector MCP é particularmente significativo. O MCP é um antropia de estrutura de código aberto iniciado em novembro de 2024 para padronizar as interações do modelo de IA com diversas fontes de dados. Os aprimoramentos da API da Anthropic visam reduzir significativamente a sobrecarga de desenvolvimento para criar agentes sofisticados de IA. O Opus 4 custa US $ 15/US $ 75 por milhão de tokens de entrada/saída e soneto 4 a US $ 3/US $ 15. Essa política voluntária visa garantir que as medidas de segurança evoluam juntamente com os recursos do modelo. As medidas ASL-3 são consideradas necessárias para os sistemas de IA que podem aumentar substancialmente a capacidade de indivíduos com fundos básicos de STEM para criar ou implantar armas químicas, biológicas, radiológicas ou nucleares (CBRN). Os”classificadores constitucionais”aprimorados digitalizam conteúdo perigoso, direcionando especificamente as consultas relacionadas à criação da Bioweapon. O antropia trabalha ativamente para evitar jailbreaks, monitora o uso e possui um programa de recompensa que levou a corrigir um jailbreak universal.
A segurança cibernética para a rede neural do modelo também é fortalecida. Essas medidas são tomadas porque, como Kaplan afirmou:”Acabamos de ver Covid matar milhões de pessoas”. Embora o ASL-3 seja um desenvolvimento positivo, os pesquisadores externos da ética da IA expressam preocupação com o desafio mais amplo da auto-regulação voluntária na indústria competitiva de IA. Isso ocorre quando um rápido crescimento antropal de experiências, sua receita anualizada atingiu US $ 2 bilhões no primeiro trimestre de 2025.