Sob o novo modelo de voz e um modelo de voz mais inteligente e expressiva OpenAI afirma que é Modelo de voz mais avançado e pronto para produção ainda , fornecendo maiores melhorias nas seguintes instruções complexas, chamando as ferramentas de precisão e a produção que soa mais naturais e se expressam. Ele obteve 82,8% na avaliação de áudio do Big Bench para raciocínio, um grande salto dos 65,6% do modelo anterior. Isso permite que ele interprete melhor as pistas não verbais, como o riso, a mudança de linguagem no meio da frase e lide com precisão sequências alfanuméricas.
A seguir, uma função crítica para agentes confiáveis, também foi aprimorada. O modelo melhorou sua pontuação na referência de áudio Multichallenge de 20,6% para 30,5%, permitindo que ele siga de maneira mais confiável a instruções específicas do desenvolvedor, como a leitura de uma isenção de isenção de isenção literal em uma chamada de suporte. Aqui, a precisão de chamada de função do GPT-REALTIME no benchmark ComplexFuncbench aumentou para 66,5%, de 49,7%. Isso garante que o modelo chama as funções certas com os argumentos corretos de maneira mais consistente. Ele pode seguir instruções de granulação fina, como”falar de maneira rápida e profissionalmente”ou”falar com empatia com sotaque francês”, para criar uma experiência mais personalizada. A atualização do OpenAI é uma tentativa direta de criar experiências de usuário mais envolventes e menos robóticas. Ele saiu da versão beta pública que começou em outubro de 2024, trazendo consigo um conjunto de novos recursos poderosos projetados para aplicativos do mundo real. OpenAI observa que o feedback de milhares de desenvolvedores durante a versão beta ajudou a moldar essas melhorias prontas para produção. servidores. Esse padrão aberto simplifica como os modelos de IA se conectam a dados externos. Os desenvolvedores podem agora Pass o URL de um servidor MCP remoto sem a configuração de sessões , permitindo que a API lida automaticamente com a ferramenta de paredes de integrações de áreas.
Uma etapa crítica para a criação de agentes comerciais capazes e priorizando os dados e a privacidade do usuário.
A API agora também suporta entradas de imagem, permitindo conversas multimodais em que um agente pode analisar e discutir o que um usuário está vendo. O sistema trata imagens como um instantâneo adicionado ao bate-papo, não um fluxo de vídeo ao vivo, garantindo que os desenvolvedores mantenham o controle sobre o que o modelo vê. Isso desbloqueia casos como pedir a um agente para descrever uma foto ou ler texto de uma captura de tela. A Zillow, que obteve acesso precoce, está usando a API para alimentar sua pesquisa em casa na próxima geração. A cabeça de IA da empresa, Josh Weisberg, informou que”exibe raciocínio mais forte e fala mais natural… permitindo que ele lide com solicitações complexas e multi-etapas, como estreitar listagens por necessidades de estilo de vida…”destacando seu potencial de interações complexas de clientes. Os rivais estão avançando agressivamente suas próprias tecnologias de voz. Em maio, o Antrópico fez uma entrada significativa, lançando um modo de voz para sua IA Claude. Mais recentemente, a Meta escalou a guerra de talentos ao adquirir a startup de voz Playai por US $ 45 milhões em julho para reforçar seus óculos assistentes e inteligentes de IA.
A comunidade de código aberto também está aumentando um desafio formidável. A Startup French Mistral divulgou seus modelos voxtrais em julho, com o objetivo de prejudicar os sistemas proprietários com uma licença permissiva do Apache 2.0 e uma promessa de desempenho de última geração a menos da metade do preço das APIs concorrentes. Ele usa um método inovador de treinamento baseado em legenda para uma compreensão mais holística da fala, música e sons ambientais, também sob uma licença comercial. Em abril, a Amazon lançou seu modelo expressivo Nova Sonic, que está sendo integrado ao seu assistente Alexa+. Seus dispositivos lideram, Panos Panay, prometeu anteriormente que”quando você usa o Alexa+, sentirá isso”, sinalizando um impulso para interações mais emocionalmente ressonantes.
A inovação também se estende a startups especializadas. A IA de estabilidade está enfrentando o processamento do dispositivo, enquanto outros como a AI do gergelim estão ultrapassando os limites do realismo para criar assistentes de”som estranhamente humano”que adotam imperfeições naturais, como pausas e gavetas. A empresa está apostando que uma experiência superior do desenvolvedor será o fator decisivo nesta crescente guerra da plataforma.