A OpenAI revelou seus mais recentes modelos de inteligência artificial, o3 e o3-Mini, que são projetados para se destacarem em tarefas que exigem raciocínio lógico complexo.
Anunciado durante a conclusão do evento “12 Dias de OpenAI”da OpenAI , os modelos baseiam-se no sucesso da família de modelos o1 anterior e incorporam melhorias como o tempo de raciocínio ajustável, Sam Altman, descreveu o3 como um passo à frente no desenvolvimento de IA capaz de lidar com “tarefas cada vez mais complexas que exigem atenção cuidadosa. raciocínio.”
Os novos modelos estão disponíveis para visualização por pesquisadores de segurança, com acesso público mais amplo planejado para o início do próximo ano.
Dia 12: Avaliações antecipadas para OpenAI o3 (sim, pulamos um número)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 20 de dezembro, 2024
Capacidades e aplicações de raciocínio aprimoradas
A família o3 introduz vários recursos destinados a melhorar a capacidade da IA para resolução lógica de problemas. Mais notavelmente, os modelos permitem aos usuários ajustar o tempo alocado para o raciocínio, alcançando um equilíbrio entre velocidade e precisão.
De acordo com a OpenAI, esse recurso permite que o o3 tenha um melhor desempenho em uma ampla gama de tarefas, incluindo matemática avançada, programação e análise científica.
Ao contrário de outros modelos focados no raciocínio, o3 como o1, emprega uma metodologia de “cadeia privada de pensamento”. Isso divide os problemas em etapas lógicas menores antes de fornecer uma solução. A OpenAI afirma que essa abordagem ajuda a minimizar erros e garante que o modelo forneça resultados mais confiáveis para consultas complexas.
Altman indicou que os novos modelos são projetados para abordar tarefas que tradicionalmente dependiam das capacidades humanas de resolução de problemas.
Desempenho em benchmarks-chave
As avaliações internas da OpenAI posicionam o3 como uma grande melhoria em relação ao seu antecessor. No ARC-AGI, um benchmark projetado para testar a generalização da IA, o3 foi alcançado. uma pontuação de 87,5%, em comparação com a pontuação máxima do o1 de 32%. Outros benchmarks destacam ainda mais os pontos fortes do o3:
EpochAI Frontier Math: o3 resolveu 25,2% dos problemas, superando todos os outros sistemas de IA, que atinge no máximo 2%. FrontierMath avalia as capacidades dos sistemas de IA em raciocínio matemático avançado. O benchmark consiste em centenas de problemas matemáticos originais e excepcionalmente desafiadores que abrangem os principais ramos da matemática moderna, incluindo teoria computacional dos números, análise real, geometria algébrica e teoria das categorias.
AIME 2024: pontuação o3 96,7%, com apenas uma questão perdida. O benchmark AIME (Avaliação Matemática de Inteligência Artificial) 2024 foi projetado para avaliar as capacidades de resolução de problemas matemáticos de modelos de IA com base no Exames AIME 2024. Esta avaliação se concentra em desafios matemáticos complexos, semelhantes aos encontrados no American Invitational Mathematics Examination, que é conhecido por testar as habilidades de estudantes de matemática altamente talentosos do ensino médio nos Estados Unidos.
GPQA Diamond: alcançou uma taxa de precisão de 87,7%, destacando-se no atendimento de consultas lógicas de alto nível. GPQA Diamond avalia as capacidades dos sistemas de IA em raciocínio científico avançado em biologia, física e química em nível de pós-graduação. Este benchmark consiste em 198 questões de múltipla escolha excepcionalmente desafiadoras, projetadas para serem difíceis mesmo para não especialistas altamente qualificados.
François Chollet, cocriador do ARC-AGI, descreveu esse progresso como sólido, mas refletindo apenas um aspecto de inteligência geral.
Hoje a OpenAI anunciou o3, seu modelo de raciocínio de última geração. Trabalhamos com a OpenAI para testá-lo no ARC-AGI e acreditamos que ele representa um avanço significativo para fazer com que a IA se adapte a novas tarefas.
A pontuação é de 75,7% na avaliação semiprivada em baixo-modo de computação (por US$ 20 por tarefa… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 de dezembro de 2024
Chollet também compartilhou alguns exemplos de tarefas que o3 não conseguiu resolver em configurações de alta computação, que estão disponíveis no GitHub para análise posterior.
Também será extremamente É importante analisar os pontos fortes e as limitações do novo sistema. Aqui estão alguns exemplos de tarefas que o o3 não conseguiu resolver em configurações de alta computação (mesmo gerando milhões de tokens de pesquisa CoT e consumindo milhares de dólares em computação…
pic.twitter.com/IULyjAlxwV — François Chollet (@fchollet) 20 de dezembro de 2024
Preocupações e limitações de segurança
Apesar de suas conquistas, o3 levanta preocupações sobre implantação ética e segurança. Descobriu-se que modelos de raciocínio como o1 exibem uma tendência maior para comportamentos enganosos em comparação com a IA tradicional. A OpenAI reconhece que esses riscos podem persistir com o3 e está colaborando ativamente com organizações externas para realizar testes de segurança.
Altman sugeriu em uma entrevista recente que o lançamento de sistemas avançados de IA deveria ser guiado por estruturas federais robustas para garantir segurança e responsabilidade.
A ascensão da IA do raciocínio e das rivalidades da indústria
O anúncio da OpenAI ocorre em um momento de competição acirrada entre os desenvolvedores de IA. Ainda ontem, o Google apresentou seu modelo Gemini 2.0 Flash Thinking, descrito pelo CEO Sundar Pichai como “nosso sistema mais bem pensado até agora”. Enquanto isso, Alibaba e DeepSeek também lançaram modelos focados no raciocínio, marcando uma mudança em direção a esta área especializada de desenvolvimento de IA.
A popularidade da IA de raciocínio reflete um consenso crescente de que o dimensionamento de modelos por si só não é mais suficiente para obter ganhos substanciais de desempenho. No entanto, esses sistemas exigem recursos computacionais significativos, levantando questões sobre seu longo prazo. escalabilidade.
Um contexto mais amplo: o3 e inteligência artificial geral
Os avanços da OpenAI com o3 reacenderam os debates sobre inteligência artificial geral (AGI), define a empresa. AGI como sistemas que “superam os humanos na maioria dos trabalhos economicamente valiosos”. Alcançar a AGI teria implicações financeiras para a parceria da OpenAI com a Microsoft, potencialmente alterando o seu acordo sobre o acesso às tecnologias da empresa.
Embora Altman não tenha declarado o3 como AGI, o seu forte desempenho em benchmarks sugere que a OpenAI está avançando lentamente. mais próximo deste objectivo ambicioso. No entanto, a validação externa e mais testes serão essenciais para confirmar as capacidades do modelo.
Anúncios anteriores durante os “12 dias de OpenAI”
Em 19 de dezembro , a OpenAI revelou uma atualização para seu aplicativo de desktop ChatGPT para que os usuários de Mac agora possam experimentar uma abordagem mais interativa e sem uso das mãos ao usar o ChatGPT, confundindo ainda mais os limites entre a interação humano-computador.
Em dezembro. Em 18 de dezembro, a OpenAI lançou um número gratuito e acesso ao WhatsApp para ChatGPT, tornando o chatbot de IA mais acessível.
17 de dezembro trouxe acesso à API para a versão completa do modelo o1 da OpenAI, melhorias na Realtime API para interações de voz e um novo método de ajuste de preferência.
Em 16 de dezembro, a OpenAI disponibilizou seu recurso de pesquisa na web ao vivo ChatGPT para todos os usuários, permitindo que qualquer pessoa para recuperar informações atualizadas diretamente da Web.
O dia 14 de dezembro trouxe novas opções de personalização para o ChatGPT, permitindo que os usuários simplifiquem tarefas e gerenciem projetos com eficiência. O Projects permite que os usuários agrupem bate-papos, arquivos e instruções personalizadas em pastas dedicadas, criando um espaço de trabalho organizado para gerenciar tarefas e fluxos de trabalho.
Como uma grande melhoria em seu modo de voz avançado para ChatGPT, o OpenAI foi adicionado em 12 de dezembro. recursos de visão, permitindo que os usuários compartilhem vídeos e telas ao vivo para análise e assistência em tempo real.
Em 11 de dezembro, a OpenAI lançou totalmente o Canvas, um espaço de trabalho de edição colaborativa que oferece ferramentas avançadas para texto e código refinamento. Lançado inicialmente em versão beta em outubro de 2024, o Canvas substitui a interface padrão do ChatGPT por um design de tela dividida, permitindo que os usuários trabalhem em texto ou código enquanto se envolvem em trocas de conversação com a IA.
A adição da execução Python é um recurso de destaque do Canvas, permitindo que os desenvolvedores escrevam, testem e depurem scripts diretamente na plataforma. OpenAI demonstrou sua utilidade durante um evento ao vivo usando Python para gerar e refinar visualizações de dados. A OpenAI descreveu o recurso como”reduzindo o atrito entre a geração de ideias e a implementação”.
Em 9 de dezembro, a OpenAI lançou oficialmente o Sora, sua ferramenta avançada de IA para gerar vídeos a partir de prompts de texto, sinalizando uma nova era para IA criativa. Integrado a contas ChatGPT pagas, o Sora permite aos usuários animar imagens estáticas, ampliar vídeos existentes e mesclar cenas em narrativas coesas.
Lançado em 7 de dezembro foi Reinforcement Fine-Tuning como uma nova estrutura projetada para permitir a personalização de modelos de IA para aplicações específicas do setor. É a abordagem mais recente da OpenAI para melhorar os modelos de IA, treinando-os com conjuntos de dados e sistemas de classificação fornecidos pelo desenvolvedor./p>
Em 5 de dezembro, a OpenAI lançou o ChatGPT Pro, um novo nível de assinatura premium com preço de US$ 200 por mês, destinado a profissionais e empresas que buscam recursos avançados de IA para fluxos de trabalho de alta demanda.