A Antrópica lançou oficialmente sua nova IA principal, Claude Opus 4.1, uma atualização incremental projetada para aumentar o desempenho de codificação e raciocínio. Lançado em 5 de agosto, o modelo já está disponível para usuários e desenvolvedores pagos por meio da API da API, Amazon Bedrock e do Google Ai. Em seu cartão do sistema , enquadra a atualização como um passo deliberado e medido. Ele aprimora os recursos sem cruzar o limite”notavelmente mais capaz”que desencadearia uma nova revisão de segurança completa.

Essa estratégia destaca seu esforço para equilibrar a inovação com a implantação responsável. O preço permanece idêntico ao seu antecessor , sinalizando um substituto direto para o claude opus 4 e um movimento em direção à estabilidade do mercado após um período turbulento. src=”Dados: imagem/svg+xml; nitro-inempty-id=mtyzntoxmzaz-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3mj AiihdpzhropsixmjgwiiBozwlnahq9ijcymcigEg1sbnm9Imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Um salto medido no codificação e raciocínio

O recurso principal do Claude Opus 4.1 é seu desempenho significativamente aprimorado em tarefas complexas e de alto valor, particularmente aquelas cruciais para os fluxos de trabalho de empresas e desenvolvedores. anúncio do antropic imediatamente trombeta uma nova pontuação em branco de 74,5% no , uma referência exigente que testa a capacidade de uma IA de resolver os problemas do mundo real autonomamente dos repositórios do GitHub. Esse salto nas proezas de codificação é complementado por melhorias declaradas na busca agêntica, pesquisa aprofundada e habilidades de análise de dados, posicionando o modelo como um concorrente direto para a solução de problemas sofisticada e em várias etapas. De acordo com o anúncio, o Github observou”ganhos de desempenho particularmente notáveis na refatoração de código de vários arquivos”. O Rakuten Group elogiou a precisão do modelo, observando que”se destaca ao identificar correções exatas em grandes bases de código sem fazer ajustes desnecessários ou introduzir bugs”. Enquanto isso, a empresa Windsurf relatou que o Opus 4.1 forneceu uma melhoria completa de desvio padrão em relação ao seu antecessor em sua referência de desenvolvedor júnior, um salto significativo e quantificável na capacidade. Adendo revela um perfil de desempenho mais sutil. Embora o modelo mostre melhorias incrementais claras em áreas como defesa cibernética-solucionando 18 dos 35 desafios de Cybench em comparação com 16 para a Opus 4-os ganhos não são universais. Em um conjunto de tarefas internas de pesquisa de IA, o Opus 4.1 mostrou desempenho ligeiramente menor do que seu antecessor em áreas como otimização do kernel e aprendizado de reforço baseado em texto. Isso sugere que os aprimoramentos são o resultado de refinamentos direcionados, em vez de um avanço uniforme de capacidade. Em suas áreas-alvo, o Claude Opus 4.1 publica pontuações líderes, particularmente na codificação agêntica, onde seus 74,5% no banco de SWE e 43,3% no título de bancada terminal, tanto seus antecessores quanto rivais principais, como o OpenAI e o Gemini 2.5 Pro do Google. Isso sugere um foco deliberado em capturar o desenvolvedor e o mercado corporativo, onde esses recursos são fundamentais. No raciocínio no nível de pós-graduação (diamante GPQA), 80,9%da Opus 4.1 é respeitável, mas segue o Gemini 2,5 Pro (86,4%) e o O3 (83,3%). Uma lacuna mais notável emerge em competições de matemática do ensino médio (Aime 2025), onde seus 78,0% estão mais de dez pontos atrás de seus concorrentes, que marcam quase 89%. Da mesma forma, no raciocínio visual (MMMU), o Opus 4.1 melhora o seu antecessor, mas não pega os líderes.

O ponto de dados mais revelador que suporta uma estratégia de”refinamento direcionado”vem do banco de tau para o uso da ferramenta Agentic. Embora o Opus 4.1 melhore a tarefa de”varejo”, seu desempenho na tarefa”companhia aérea”diminui para 56,0%, ficando para trás não apenas seu antecessor direto, Opus 4 (59,6%), mas também o soneto Claude 4 menos poderoso (60,0%). Esse resultado misto indica fortemente que o antrópico priorizou e otimizado para capacidades específicas, aceitando trade-offs em outros para empurrar a fronteira onde acredita que mais importa. Como o analista Holger Mueller, da Constellation Research, observou sobre os movimentos anteriores da empresa,”os fornecedores da LLM estão trabalhando na pilha na camada PaaS. Anthrópico é um ótimo exemplo desse movimento com seu último lançamento”. Essa evolução de um provedor de modelos brutos para uma plataforma como fornecedor de serviço (PaaS), com o objetivo de criar um ecossistema de desenvolvedor pegajoso, é fundamental para o crescimento a longo prazo e fornece o contexto estratégico para esses impulsionamentos de desempenho direcionados. O acompanhante Adendo do cartão do sistema é central para esta narrativa. Ele confirma que o modelo é implantado sob o padrão de segurança ASL-3 existente e precaução, aplicado primeiro a Claude 4.

O documento esclarece que, como a atualização é incremental, não exigiu uma nova revisão de segurança completa sob a política de escala responsável da empresa (RSP). A política da Anthrópica afirma:”Se um modelo novo ou existente estiver abaixo do padrão”notavelmente mais capaz”, nenhum teste adicional é necessário”, uma cláusula que permite melhorias iterativas mais rápidas. produtos.”Anthrópica está tentando demonstrar um caminho mais sustentável.

As descobertas do cartão do sistema apresentam uma imagem diferenciada. Enquanto a cooperação com o uso indevido de mal humano”caiu cerca de 25%, o modelo mostrou uma ligeira regressão nas tarefas de hackers de recompensa. Isso significa que pode ser mais propenso a encontrar soluções alternativas inteligentes, em vez de resolver a lógica principal de um problema. Isso destaca o desafio em andamento que os laboratórios enfrentam para garantir que os modelos sigam o espírito, não apenas a letra, das instruções de um usuário. Seu antecessor em maio de 2025, que foi marcado pela descoberta de uma capacidade emergente de”denunciação”. Na época, esclareceu o comportamento antrópico apenas em testes altamente controlados e não em uso normal. Anthropic’s Chief Scientist, Jared Kaplan, admitted to TIME that their modeling showed “you could try to synthesize something like COVID or a more dangerous version of the flu—and basically, our modeling suggests that this might be possível.”

O lançamento do novo modelo, emparelhado com a nova estrutura de segurança da Antrópica para agentes de IA, parece projetada para projetar estabilidade. É uma jogada oportuna em um mercado abalado por falhas recentes de IA, como

Categories: IT Info