Os novos modelos da OpenAI-O3 e O4-mini-marquem uma mudança acentuada no que o ChatGPT pode fazer sem ser informado. Pela primeira vez, o sistema não responde apenas às instruções-pode decidir, planejar e agir. Esses modelos podem escolher quais ferramentas internas usarem-seja navegando, leitura de arquivos, execução de código ou geração de imagens-e iniciam essas ações de forma independente. O OpenAI descreve isso como o primeiro passo em direção ao “comportamento agêntico precoce”. Eles estão substituindo modelos anteriores como O1 e O3-Mini e estão disponíveis para usuários com acesso a ferramentas. A Companhia afirma que esses modelos agora podem decidir independentemente quais ferramentas usar e quando, sem o levante do usuário. Por exemplo, um usuário pode fazer upload de um arquivo complexo e simplesmente solicitar”um resumo dos principais problemas”. O modelo descobrirá se deve usar a ferramenta de arquivo, o intérprete de código ou o navegador-e executar essas etapas. src=”Dados: imagem/svg+xml; nitro-inempty-id=mtcxotoxnjk2-1; base64, phn2zyb2awv3qm94psiWidAgMtaynca5md Qiihdpzhropsixmdi0iiBozwlnahq9ijkWNCIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JnlziWMDAVC3ZNIJ48L3N2ZZ4=”> [Conteúdo incorporado]

Raciocínio, memória e inteligência visual

O modelo O3 foi visualizado inicialmente em dezembro de 2024 e posteriormente priorizado em relação ao GPT-5, depois que a estratégia do OpenAI mudou no início de abril. O OpenAI mudou a estratégia no início de abril para separar as linhas de modelos de raciocínio e conclusão depois de planejar inicialmente mesclar recursos de O3 no GPT-5.

Além do texto e do código, os novos modelos podem processar e raciocinar imagens. Eles suportam funções como zoom, rotação e interpretação de elementos visuais-um recurso construído sobre a atualização do GPT-4O que adicionou a edição de imagens e imagens para ChatGPT em março de 2025. Em 11 de abril, o OpenAI ativou um recurso de”recall”que permite ao modelo fazer referência a fatos, instruções ou preferências de conversas anteriores em voz, texto e imagem. Esse sistema suporta lembranças salvas e referências implícitas ao histórico de bate-papo. Um usuário poderia, por exemplo, pedir ao Chatgpt para rastrear temas de pesquisa em vários PDFs, e o modelo seria capaz de recordar resumos anteriores e costurar informações relevantes automaticamente. Domínios, destacando seus pontos fortes em relação a modelos e modelos anteriores.

Nas avaliações da capacidade de raciocínio, os novos modelos mostram ganhos significativos. Para exigir avaliações de matemática da concorrência como o AIME 2024 e 2025 (testado sem assistência da ferramenta), o O4-mini alcançou a maior precisão, por pouco liderando O3. Ambos os modelos superaram substancialmente as versões anteriores de O1 e O3-mini. Ao abordar questões amplas de nível de especialista (“Último exame da humanidade”), a O3 alavancando o Python e as ferramentas de navegação forneceram fortes resultados, perdendo apenas para uma configuração de pesquisa profunda especializada. O modelo O4-mini, também usando ferramentas, teve um bom desempenho, mostrando uma vantagem distinta sobre sua versão sem ferramentas e modelos mais antigos. Nas tarefas de codificação da competição Codeforces, o O4-mini (quando emparelhado com uma ferramenta de terminal) garantiu a classificação ELO mais alta, seguida de perto pela O3 usando a mesma ferramenta. Essas pontuações representam um grande avanço em comparação com O3-mini e O1. Enquanto o O4-Mini-High teve um desempenho melhor que o O1-High e O3-Mini-High, ele perdeu o O3-High neste teste específico. Para tarefas de engenharia de software verificadas no SWE-banch, a O3 mostrou uma ligeira liderança sobre o O4-mini, embora ambos fossem claramente superiores a O1 e O3-mini. Uma exceção notável ocorreu na simulação de tarefas freelancers do SWE-Lancer, onde o modelo mais antigo de O1-High gerou ganhos simulados mais altos do que os modelos mais recentes de O3-Alter-al-altíssimos e O3-mini-altíssimos. src=”Data: imagem/svg+xml; nitro-inempty-id=mtcZoto5njq=-1; base64, phn2zyb2awv3qm94psiwidagnzu1iduw Osigd2lkdgg9ijc1nsigagvpz2h0psi1mdkiiHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+pc9zdmc+”>

Habilidades agênticas: Instrução A seguir, o uso da ferramenta e a chamada de função

As funcionalidades agênticas aprimoradas dos novos modelos foram refletidas em testes específicos. Na escala Multichallenge for Multi-Turn Instruction A seguir, a O3 alcançou a pontuação superior, à frente de O1, O4-mini e O3-mini. Nos testes de navegação da Web agênticos (Browsecomp), a O3 utilizando o Python e a navegação exibiu alta precisão, superando significativamente a capacidade de O1.

O modelo O4-mini com ferramentas também demonstrou competência na navegação, embora sua pontuação tenha sido menor que os O3 nessa configuração. O desempenho da chamada de função, avaliado via banco de tau, variado pelo domínio da tarefa. A configuração de alta alta de O3 se destacou no domínio de varejo, enquanto o O1-High manteve uma ligeira vantagem no domínio da companhia aérea em comparação com o altura de O3 e O4-mini-alto. No entanto, o altura de O4-mini mostrou uma forte capacidade de chamada de função em ambos os domínios em relação a O3-mini-alta. Em vários benchmarks multimodais, incluindo MMMU (resolução de problemas visuais em nível universitário), Mathvista (raciocínio visual de matemática) e rendimento de charxiv (interpretação da figura científica), o modelo O3 alcançou consistentemente as maiores pontuações de precisão de acordo com os dados do OpenAI. O modelo O4-Mini teve um desempenho quase tão bom, seguindo de perto atrás da O3. O3 e O4-mini marcaram uma melhoria substancial em relação ao modelo O1 nesses recursos de raciocínio visual.

eficiência e desempenho de custo

Além da capacidade bruta, os dados de referência do OpenAI indicam avanços significativos na eficiência do modelo. O modelo O4-Mini entregou consistentemente maior desempenho que o O3-mini em benchmarks-chave como o Aime 2025 e o GPQA Pass@1 em diferentes configurações operacionais (baixo, médio, alto), enquanto possuía um custo de inferência estimado mais baixo. Uma vantagem semelhante foi observada para O3 em comparação com O1; A O3 alcançou resultados consideravelmente melhores nos mesmos referências, mas a um custo estimado reduzido para configurações comparáveis. Isso sugere que os avanços da série O incluem não apenas a maior inteligência, mas também a eficiência computacional aprimorada.

No geral, os dados de desempenho do OpenAI indicam que a O3 freqüentemente define a marca de alta água, particularmente em operações agênticas complexas e tarefas multimodais. Simultaneamente, o O4-Mini prova ser um modelo muito capaz e notavelmente eficiente, geralmente correspondendo ou até excedendo O3 em raciocínio específico e codificação de referência, oferecendo economia de custos significativa em comparação com O3-mini. Ambos os novos modelos representam um passo claro e substancial de ofertas anteriores do OpenAI na maioria dos recursos testados. A empresa atualizou recentemente sua estrutura de preparação para permitir o relaxamento de certos protocolos de segurança se um rival lançar um modelo de alto risco sem salvaguardas semelhantes. A empresa escreveu: “Se outro desenvolvedor de IA da Frontier libera um sistema de alto risco sem salvaguardas comparáveis, podemos ajustar nossos requisitos.”

Isso ocorreu em meio a relatos de que os testes internos para O3 foram compactados de vários meses para menos de uma semana. Ele acrescentou que a automação permitiu avaliações de segurança mais rápidas. Um ex-funcionário alertou:”É uma prática ruim lançar um modelo diferente do que você avaliou.”

A estrutura atualizada também introduziu novas categorias rastreadas e de pesquisa para monitorar riscos como replicação autônoma, manipulação de supervisão e abordagem de longo horizonte. O DeepMind propôs uma estrutura global de segurança da AGI no início de abril, enquanto o Antrópico lançou um kit de ferramentas de interpretabilidade para tornar a tomada de decisão de Claude mais transparente. No entanto, ambas as empresas enfrentaram o escrutínio-antropia para remover compromissos de políticas públicas, e a DeepMind por oferecer detalhes limitados da execução. Os modelos O3 e O4-Mini não são apenas mais inteligentes-eles estão agindo por si próprio. A Microsoft já integrou o modelo O3-Mini-Alto em sua camada de copiloto gratuita. Mais recentemente, a empresa lançou um recurso do Copilot Studio que permite que os agentes de IA interajam diretamente com aplicativos de desktop e páginas da Web. Esses agentes podem simular ações do usuário, como clicar em botões ou inserir dados-particularmente úteis quando as APIs não estão disponíveis.

Enquanto isso, a linha do modelo GPT-4.1 do OpenAI, lançada em 14 de abril, foi disponibilizada exclusivamente via API. Essa linha é otimizada para codificação, avisos de longo contexto e seguidores de instruções, mas carece de uso autônomo de ferramentas-mais destacando a estratégia de segmentação do OpenAI entre os modelos GPT e a série O.

de assistente para agente

com a liberação de O3 e O4-Mini-minnini, e o agente

com a liberação de O3 e O4-Mini, Os modelos não apenas produzem respostas-eles planejam, a razão e escolhem como agir. Seja analisando um artigo científico, depurando código ou ajustando uma imagem, esses modelos agora podem decidir quais etapas tomarem sem aguardar instruções. Mas os sistemas de agentes também levantam novas preocupações: quão transparente é o raciocínio deles? O que acontece quando eles fazem uma chamada ruim ou abusarem de uma ferramenta? Essas perguntas não são mais teóricas. À medida que O3 e O4-mini são lançados para milhões de usuários, o desempenho do mundo real-e a responsabilidade-estão prestes a ser testados.

Categories: IT Info