Contrariando o lançamento do Gemini 3 Pro do Google com foco na resistência em vez do tamanho bruto, a OpenAI lançou o GPT-5.1-Codex-Max na quarta-feira.
Apresentando a “compactação”, o novo modelo emprega uma técnica que permite condensar a memória e sustentar sessões de codificação autônomas por mais de 24 horas. Quebrando a “parede de memória” que normalmente paralisa tarefas de longo prazo, a OpenAI afirma que o modelo reduz o uso de tokens em 30%, garantindo uma pontuação máxima de 77,9% no benchmark SWE-bench Verified.
Implementada imediatamente para usuários do Codex, esta atualização sinaliza uma mudança estratégica em direção à eficiência e ao suporte nativo do Windows. Ele segue de perto o lançamento do GPT-5.1, que buscou estabilizar a plataforma após uma estreia inicial difícil no GPT-5.
O mecanismo de resistência: compactação e autonomia de 24 horas
Nos bastidores, a arquitetura depende de uma nova abordagem para gerenciamento de contexto que difere fundamentalmente do método de força bruta de simplesmente expandir a janela de contexto.
Concorrentes como o Google buscam capacidades de milhões de tokens para manter bases de código inteiras na memória ativa, mas a OpenAI introduziu a “compactação”.
Funcionando de forma semelhante a um mecanismo altamente coletor de lixo inteligente para a capacidade de atenção do modelo, esse mecanismo resume e elimina ativamente seu próprio histórico, em vez de permitir que a janela de contexto se encha com detritos de conversação irrelevantes.
Reter apenas as mudanças de estado críticas e a lógica de decisão permite que o sistema opere em múltiplas janelas de contexto sem perder o fio condutor do objetivo original.
Descrevendo a inovação, a equipe de engenharia da OpenAI observou que”GPT-5.1-Codex-Max foi desenvolvido para trabalhos detalhados e de longa duração. É nosso primeiro modelo treinado nativamente para operar em múltiplas janelas de contexto por meio de um processo chamado compactação”, destacando sua capacidade de manter a coerência onde as iterações anteriores causariam alucinações ou loops.
Abordando diretamente o problema do”agente preguiçoso”, essa mudança arquitetônica evita que os modelos se degradem no desempenho à medida que a duração da conversa aumenta.
Avaliações internas citadas pela empresa sugerem um aumento dramático na resistência: “Em nossas avaliações internas, observamos O GPT‑5.1-Codex-Max trabalha em tarefas por mais de 24 horas. Ele iterará persistentemente em sua implementação, corrigirá falhas de teste e, por fim, fornecerá um resultado bem-sucedido.”
Os desenvolvedores corporativos agora podem atribuir um trabalho de refatoração complexo na noite de sexta-feira e esperar que o agente continue trabalhando durante o fim de semana, executando testes iterativamente e corrigindo seus próprios erros até que a compilação seja aprovada.
Os ganhos de eficiência acompanham essa resistência. Não reprocessar constantemente o histórico completo e descompactado de uma sessão longa significa que o modelo consome significativamente menos recursos.
No benchmark SWE-bench Verified, a empresa observa que”GPT-5.1-Codex-Max com esforço de raciocínio’médio’alcança melhor desempenho do que GPT-5.1-Codex… enquanto usam 30% menos tokens de pensamento.”
Usuários de API de alto volume verão uma redução de 30% no consumo de token traduzida diretamente. para reduzir os custos operacionais, um fator crítico à medida que a IA passa da prototipagem experimental para fluxos de trabalho de produção.
As melhorias de velocidade são igualmente mensuráveis. As tarefas de codificação do mundo real agora são executadas entre 27% e 42% mais rápido do que com o modelo GPT-5.1-Codex anterior.
Atendendo a uma reclamação comum em relação aos modelos de raciocínio, essa aceleração reduz o tempo de “pensamento” necessário antes de produzir o código. A otimização dos tokens de raciocínio permite que a OpenAI equilibre a profundidade de pensamento necessária para lógica complexa com a capacidade de resposta necessária para o desenvolvimento interativo.
As métricas de desempenho validam essas mudanças arquitetônicas. Com pontuação de 77,9% no SWE-bench Verified, o modelo supera os 73,7% de seu antecessor e estabelece um novo recorde interno.
No benchmark SWE-Lancer IC SWE, que simula tarefas de contribuidores individuais, alcançou 79,9%, sugerindo que pode lidar com a maioria dos tickets de rotina atribuídos a engenheiros juniores.
Além disso, uma pontuação de 58,1% no TerminalBench 2.0 indica uma pontuação capacidade robusta de navegar em interfaces de linha de comando, uma área notoriamente difícil para LLMs devido à natureza implacável dos erros de sintaxe em ambientes de terminal.
A guerra dos ecossistemas: o foco do Windows e a rivalidade dos Gêmeos
O momento raramente é uma coincidência no setor de IA. Chegando exatamente 24 horas depois que o Google revelou o Gemini 3 Pro, este lançamento cria uma comparação direta imediata.
A batalha de benchmark agora é muito tênue. Os 77,9% do Codex-Max no SWE-bench Verified ultrapassam por pouco o número de 76,2% relatado para o Gemini 3 Pro, neutralizando efetivamente a reivindicação do Google à coroa da codificação menos de um dia depois de ter sido feito.
Além dos benchmarks, a OpenAI está fazendo uma jogada calculada para o mercado corporativo, rompendo com a tradição centrada no Unix da indústria. modelo que treinamos para operar de forma eficaz em ambientes Windows, com tarefas de treinamento que o tornam um melhor colaborador na CLI do Codex.”
Historicamente, os modelos de codificação de IA foram treinados principalmente em repositórios Linux e macOS, causando atrito ao gerar scripts do PowerShell ou navegar no sistema de arquivos do Windows. O treinamento explícito para Windows alinha a OpenAI mais estreitamente com a enorme base instalada corporativa de seu principal parceiro, a Microsoft.
Os preços continuam sendo a frente mais controversa neste conflito. O Google lançou o Gemini 3 Pro com uma estratégia de preços agressiva de aproximadamente US$ 0,10 por milhão de tokens de entrada.
Em contraste, a linha de base do GPT-5.1 é significativamente mais alta, em torno de US$ 1,25 por milhão de tokens. Embora a OpenAI argumente que o modelo “Max” é mais barato de executar devido à eficiência de seu token, a disparidade bruta de custo unitário é superior a 10x.
Essa lacuna coloca imensa pressão sobre a OpenAI para provar que suas capacidades de “compactação” e raciocínio oferecem valor superior por dólar, em vez de apenas desempenho superior por token.
A disponibilidade é imediata para os usuários dentro do ecossistema OpenAI. Disponível na CLI do Codex, extensões IDE e ambientes de nuvem para assinantes Plus, Pro e Enterprise, o modelo está pronto para implantação.
No entanto, o acesso à API está atualmente listado como “em breve”. Criando uma barreira temporária para os desenvolvedores que criam ferramentas personalizadas ou aplicativos de terceiros, esse atraso os força a permanecer nas interfaces originais da OpenAI por enquanto.
Mudar a narrativa em torno dessas ferramentas também é uma prioridade. Denis Shiryaev, da JetBrains, chamou o novo modelo de “genuinamente agente, o modelo mais naturalmente autônomo que já testei”, refletindo um afastamento dos “copilotos” que sugerem trechos em direção aos “agentes” que gerenciam fluxos de trabalho.
Crucialmente, um copiloto ajuda você a digitar mais rápido; um agente permite que você pare completamente de digitar.
O teto de segurança: riscos biológicos e defesa de dados
Maior autonomia traz mais riscos. A placa de sistema lançada junto com o modelo revela uma escalada significativa na classificação de segurança.
Pela primeira vez em uma versão focada em codificação, o Grupo Consultivo de Segurança confirmou que “estamos tratando GPT-5.1-Codex-Max como de alto risco no domínio biológico e químico e continuando a aplicar o correspondente salvaguardas.”
Cartão de sistema GPT-5.1-Codex-Max
Decorrente da capacidade do modelo de planejar e solucionar problemas complexos de protocolos de laboratório úmido, esta classificação destaca um novo perigo. Um agente capaz de depurar autonomamente um script Python pode, em teoria, também depurar um protocolo para sintetizar um patógeno se tiver acesso à literatura e ao equipamento corretos.
A segurança cibernética continua sendo outra área de intenso escrutínio. O Grupo Consultivo de Segurança observou que “GPT-5.1-Codex-Max é o modelo com maior capacidade cibernética que implantamos até o momento… [mas] não atinge alta capacidade em segurança cibernética.”
Embora ainda não tenha ultrapassado o limite que desencadearia uma interrupção da implantação, a proficiência do modelo em identificar vulnerabilidades e escrever scripts de exploração melhorou.
Para atenuar isso, a OpenAI implementou sandboxing estrito por padrão. O acesso à rede é desativado, a menos que seja explicitamente concedido, e as permissões de gravação de arquivos são bloqueadas no espaço de trabalho ativo, evitando que o agente entre nos diretórios do sistema.
A destruição de dados é um risco único para agentes de codificação autônomos. O acesso ao terminal poderia, teoricamente, permitir que um modelo executasse um comando como `rm-rf/` e limpasse a máquina de um usuário. Contrariando isso, a OpenAI empregou uma nova técnica de treinamento envolvendo um “modelo de usuário” durante a fase de Aprendizado por Reforço.
Simulando um usuário que fez edições conflitantes com os objetivos da IA, esse método recompensou o modelo especificamente por preservar o trabalho do usuário em vez de substituí-lo, ensinando efetivamente a IA a respeitar as contribuições humanas e evitar comandos destrutivos.
Ataques de injeção imediata, onde instruções maliciosas são escondidas em comentários de código ou documentação externa, também receberam atenção específica. Novos conjuntos de dados sintéticos foram gerados para treinar o modelo para reconhecer e ignorar esses ataques dentro de um contexto de codificação.
Apesar dessas salvaguardas técnicas, a empresa afirma que a supervisão humana não é negociável. A Estrutura de Preparação determina que, embora o agente possa executar tarefas de forma autônoma, o resultado final deve ser revisado por um engenheiro humano, reforçando a dinâmica do “companheiro de equipe virtual” em vez da substituição completa.