A OpenAI expandiu suas ofertas para desenvolvedores lançando a versão completa de seu modelo o1 por meio de sua API. Este modelo de raciocínio avançado, que se destaca em tarefas complexas e de várias etapas, apresenta novos recursos que prometem remodelar a forma como os desenvolvedores criam aplicativos baseados em IA.

A atualização faz parte da série de anúncios “12 Dias de OpenAI”, em que a empresa lança novos recursos e atualizações para seus principais produtos.

Juntamente com o modelo o1, a OpenAI tem também anunciou melhorias em sua API Realtime para interações de voz e um novo método de ajuste fino de preferências, proporcionando aos desenvolvedores uma flexibilidade sem precedentes.

O modelo o1-2024-12-17 substitui a versão o1-preview lançada no início deste ano. De acordo com a OpenAI, o modelo atualizado oferece “mais abrangente. e respostas precisas, especialmente para questões relacionadas à programação e negócios, e é menos provável que recuse solicitações incorretamente.”

Essas melhorias, juntamente com uma redução de 60% no uso de tokens de raciocínio, tornam o modelo o1 mais rápido, mais eficiente e mais versátil.

[conteúdo incorporado]

Avançar o raciocínio via API com o modelo o1

O modelo o1 da OpenAI foi projetado para lidar com tarefas que exigem consistência lógica e profundidade analítica, superando iterações anteriores em benchmarks como SWE-Bench verificado e AIME.

A OpenAI relata que a precisão das tarefas de programação aumentou de 52,3% para 76,6%, enquanto o desempenho em problemas matemáticos saltou de 42% para quase 80%.

CategoryEvalo1-2024-12-17o1-previewGeneralGPQA diamante75.773.3MMLU (passar @1)91.890.8CodingSWE-bench verificado48.941.3LiveCodeBench76.652.3MathMATH (pass @1)96.485.5AIME 2024 (pass @1)79.242.0MGSM (pass @1)89.390.8VisionMMMU (pass @1)77.3—MathVista (pass @1)71,0—FactualitySimpleQA42.642.4AgentesTAU-bench (varejo)73,5—TAU-bench (companhia aérea)54,2—

Fonte: OpenAI

Um recurso de destaque é o suporte de saída estruturado, permitindo que os desenvolvedores gerem respostas em formatos predefinidos, como JSON.

Isso garante integração perfeita com sistemas externos, como APIs e bancos de dados, tornando o modelo ideal para aplicações de suporte ao cliente, logística e análise de dados.

O modelo também introduz recursos de raciocínio visual, permitindo a análise de imagens para tarefas como depuração ou pesquisa científica. Por exemplo, os desenvolvedores agora podem inserir dados visuais, como documentos digitalizados ou plantas, e receber respostas sensíveis ao contexto.

Além disso, um novo parâmetro de “esforço de raciocínio” permite que os desenvolvedores controlem quanto tempo o modelo gasta em cada tarefa, equilibrando precisão e eficiência.

A OpenAI explicou em seu blog: “Estamos avançando aumentando o acesso de forma incremental enquanto trabalhamos para expandir o acesso a níveis de uso adicionais e aumentar os limites de taxa.”

Aprimorando as interações de voz com a API em tempo real

OpenAI também teve um desempenho significativo atualizações em seu API em tempo real, que possibilita interações de voz em tempo real. A adição do WebRTC, Web Real-Time Communication — um protocolo para comunicação de baixa latência — permite que os desenvolvedores criem aplicativos de voz integrados para tutores virtuais, assistentes e ferramentas de tradução. Ele permite conexões ponto a ponto (P2P) sem a necessidade de plug-ins ou software adicionais.

A OpenAI destacou as vantagens do WebRTC, afirmando: “Em cenários em que você gostaria de se conectar a um modelo em tempo real de um cliente inseguro pela rede (como um navegador da web), recomendamos usar o método de conexão WebRTC. O WebRTC está mais bem equipado para lidar com estados de conexão variáveis ​​e fornece uma série de APIs convenientes para capturar entradas de áudio do usuário e reproduzir fluxos de áudio remotos do modelo.“

A implementação do WebRTC usa os chamados tokens efêmeros, chaves de API temporárias projetadas especificamente para autenticar com segurança aplicativos do lado do cliente ao se conectar à API OpenAI Realtime por meio de WebRTC. Seu objetivo é garantir um mecanismo de autenticação seguro e de curta duração que evite a exposição de chaves de API padrão confidenciais diretamente em ambientes de clientes, como navegadores da Web.

Imagem: OpenAI

As atualizações da Realtime API simplificam o processo de desenvolvimento, reduzindo o código necessário para aplicações de voz e melhorando a qualidade do áudio e a precisão da resposta. Os desenvolvedores agora podem criar aplicativos que começam a formular respostas enquanto os usuários ainda estão falando, melhorando a capacidade de resposta.

Os ajustes de preços tornam os aplicativos de voz mais acessíveis. O custo dos tokens de áudio GPT-4o foi reduzido em 60%, enquanto os tokens de entrada em cache são agora 87,5% mais baratos. A OpenAI também introduziu o GPT-4o mini, uma opção econômica para desenvolvedores que buscam alternativas acessíveis, ao preço de US$ 10 por milhão de tokens de entrada.

Refinando o comportamento da IA ​​com ajuste fino de preferência

O ajuste fino de preferência é um novo método de personalização que permite aos desenvolvedores refinar o comportamento do modelo com base em comparações emparelhadas de respostas. Ao contrário do ajuste fino tradicional, que depende de pares exatos de entrada-saída, o ajuste fino de preferência ensina o modelo a distinguir entre respostas preferidas e menos desejáveis.

OpenAI descreve este método como particularmente eficaz para tarefas subjetivas, como como adaptar o tom e o estilo na escrita criativa ou garantir a conformidade com requisitos específicos de formatação. De acordo com a OpenAI, os primeiros usuários, como uma empresa de análise financeira, relataram que o ajuste fino de preferência melhorou a precisão da resposta em 5% para consultas complexas e fora de distribuição.

“Começamos a testar o ajuste fino de preferência com parceiros de confiança que obtiveram resultados promissores até agora. Por exemplo, Rogo AI⁠(abre em uma nova janela) está construindo um assistente de IA para analistas financeiros que divide consultas complexas em subconsultas.

Usando seu benchmark desenvolvido por especialistas, Rogo-Golden, eles descobriram que, embora o ajuste fino supervisionado enfrentasse desafios com a expansão de consultas fora da distribuição, como a falta de métricas como ARR para consultas como “quão rápido é empresa X crescendo”—O ajuste fino de preferência resolveu esses problemas, melhorando o desempenho de 75% de precisão no modelo básico para mais de 80%.”

Expandindo as opções do SDK para Desenvolvedores

Para oferecer suporte a uma variedade mais ampla de ambientes de programação, a OpenAI também introduziu SDKs oficiais para Go e Java, junto com eleas bibliotecas existentes para Python, Node.js e.NET. Esses SDKs simplificam a integração, permitindo que os desenvolvedores implantem modelos de IA em sistemas de back-end escalonáveis ​​ou corporativos aplicativos.

O Go SDK foi projetado para aplicativos de servidor leves e eficientes, enquanto o Java SDK atende a soluções de nível empresarial, oferecendo tipagem forte e suporte robusto para projetos de grande escala. A documentação da OpenAI fornece orientações detalhadas para aproveitar essas novas ferramentas.

Anúncios anteriores durante os “12 dias de OpenAI”

Em 16 de dezembro, a OpenAI lançou seu ChatGPT recurso de pesquisa na Web ao vivo disponível para todos os usuários, permitindo que qualquer pessoa recupere informações atualizadas diretamente da Web.

O dia 14 de dezembro trouxe novas opções de personalização para o ChatGPT, permitindo que os usuários simplifiquem tarefas e gerenciem O Projects permite que os usuários agrupem bate-papos, arquivos e instruções personalizadas em pastas dedicadas, criando um espaço de trabalho organizado para gerenciar tarefas e fluxos de trabalho.

Como uma grande melhoria em seu modo de voz avançado para ChatGPT, o OpenAI está ativado. Em 12 de dezembro, foram adicionados recursos de visão, permitindo que os usuários compartilhem vídeos e telas ao vivo para análise e assistência em tempo real.

Em 11 de dezembro, a OpenAI lançou totalmente o Canvas, um espaço de trabalho de edição colaborativa que oferece ferramentas avançadas para texto e refinamento de código inicialmente lançado em versão beta em outubro de 2024, o Canvas substitui a interface padrão do ChatGPT por um design de tela dividida, permitindo que os usuários trabalhem em texto ou código enquanto participam de conversas com a IA.

A adição. A capacidade de execução do Python é um recurso de destaque do Canvas, permitindo que os desenvolvedores escrevam, testem e depurem scripts diretamente na plataforma. OpenAI demonstrou sua utilidade durante um evento ao vivo usando Python para gerar e refinar visualizações de dados. A OpenAI descreveu o recurso como”reduzindo o atrito entre a geração de ideias e a implementação”.

Em 9 de dezembro, a OpenAI lançou oficialmente o Sora, sua ferramenta avançada de IA para gerar vídeos a partir de prompts de texto, sinalizando uma nova era para IA criativa. Integrado a contas ChatGPT pagas, o Sora permite aos usuários animar imagens estáticas, estender vídeos existentes e mesclar cenas em narrativas coesas.

Lançado em 7 de dezembro foi Reinforcement Fine-Tuning como uma nova estrutura projetada para permitir a personalização de modelos de IA para aplicações específicas do setor. É a abordagem mais recente da OpenAI para melhorar os modelos de IA, treinando-os com conjuntos de dados e sistemas de classificação fornecidos pelo desenvolvedor./p>

Em 5 de dezembro, a OpenAI lançou o ChatGPT Pro, um novo nível de assinatura premium com preço de US$ 200 por mês, destinado a profissionais e empresas que buscam recursos avançados de IA para fluxos de trabalho de alta demanda.

Categories: IT Info