O novo modelo de voz do Nova Sonic da Amazon alvos de voz ai rivais com saída expressiva em tempo real

A Amazon está desafiando o status quo na Voice AI com a Nova Sonic, um novo modelo de fala para fala que interpreta não apenas o que os usuários dizem, mas como dizem isso. Projetado para lidar com inflexão, tom e cadência vocais em tempo real, a Nova Sonic pula completamente o pipeline de fala para texto tradicional. Em vez disso, escuta e responde diretamente no discurso sintético expressivo, dando aos usuários a sensação de uma conversa humana. A Amazon também relata que o modelo foi treinado em mais de 100.000 horas de fala, cobrindo centenas de estilos de alto-falantes, idades e sotaques. Na referência multilíngue de bibliotecia, alcançou uma taxa de erro de 4,2% em inglês, francês, italiano, alemão e espanhol. A Amazon também enquadrou o modelo como econômico, afirmando que é aproximadamente 80% mais barato que o GPT-4O do Openai. Pilha de desenvolvedores

Elementos do Nova Sonic já estão incorporados ao Alexa+, o assistente de voz reprojetado da Amazon, lançado em fevereiro de 2025. O PANOS PANAY, líder dos dispositivos da Amazon, enfatizou a experiência durante o evento de lançamento, afirmando:”Quando você usa Alexa+, sentirá isso”. No entanto, algumas características prometidas, como encomendar a viagem via GrubHub ou geração de histórias para crianças, ainda estão atrasadas. Os dispositivos de eco mais antigos podem não suportar os requisitos de processamento do modelo, limitando o lançamento. Internamente, o assistente continua a confiar na IA Claude da Antrópica para modelagem de idiomas, após o investimento de US $ 4 bilhões da Amazon no final de 2024. Ele sinaliza a intenção da Amazon de fornecer os blocos de construção para sistemas de conversação personalizados, em vez de liberar um agente de tamanho único. Em dezembro de 2024, a Amazon introduziu a família Modelo Nova-NOVA Micro, Lite, Pro e Premier-que abrange o texto, a imagem e a geração de vídeos. O modelo Nova Pro publicou pontuações competitivas em benchmarks como GSM8K (precisão de 94,8%em matemática), geração de código Python (89,0%) e raciocínio em várias etapas (86,9%). A Reel, por exemplo, atualmente suporta clipes de seis segundos com suporte futuro para sequências de dois minutos em desenvolvimento. Essas ferramentas criativas são projetadas para uso corporativo e incorporam auditabilidade para abordar as preocupações em relação ao uso indevido da mídia sintética. A Nova Lei permite a criação de agentes de IA que podem operar dentro de navegadores da web-clicar, digitar e navegar por páginas através de uma interface visualmente consciente. Diferentemente da estrutura modular da cadeia de agentes do Google, o SDK da Amazon prioriza o controle do desenvolvedor sobre a lógica de coordenação pré-construída. O próximo modelo tem como objetivo preencher uma conversa rápida e em tempo real com processamento analítico mais atencioso. Internamente, está posicionado para rivalizar com Claude 3,7 sonetos, OpenAi da O3-Mini e Gemini 2.5 Pro. Se for bem-sucedido, poderia dar à empresa controle mais rígido sobre o fluxo de dados, a latência e a otimização de custos em comparação com os primeiros concorrentes como o OpenAI. O OpenAI ampliou o alcance de seu modo de voz avançado, adicionando acesso e atualizações baseadas na Web que reduzem as interrupções e permitem pausas naturais na conversa. Enquanto isso, a Microsoft tornou seus recursos de voz copilota e pensam em ferramentas mais profundas para todos os usuários em fevereiro de 2025. Embora o realismo tenha sido impressionante, também levantou preocupações éticas sobre a representação da IA e a manipulação emocional. Comercializado como uma alternativa de”liberdade de expressão”, o recurso sacrifica os corrimãos e a moderação para permitir respostas altamente expressivas, às vezes chocantes-oferecendo um contraste fortemente com a abordagem mais regulamentada da Amazon. Ainda não se sabe se esse equilíbrio pode conquistar os desenvolvedores e os usuários finais, especialmente porque as expectativas em torno da IA conversacional continuam a mudar.

O novo modelo de voz do Nova Sonic da Amazon alvos de voz ai rivais com saída expressiva em tempo real

Published by All Things Windows on April 8, 2025

IT Info

A Microsoft adiciona OpenAi O3, O4-Mini ao Azure e Github

IT Info

Wikipedia e Kaggle libera conjunto de dados estruturados para ajudar no desenvolvimento da IA, contador de raspagem

IT Info

A Microsoft visualiza agentes de IA que podem operar desktops e sites no Copilot Studio

O novo modelo de voz do Nova Sonic da Amazon alvos de voz ai rivais com saída expressiva em tempo real

Published by All Things Windows on April 8, 2025

Related Posts

IT Info

A Microsoft adiciona OpenAi O3, O4-Mini ao Azure e Github

IT Info

Wikipedia e Kaggle libera conjunto de dados estruturados para ajudar no desenvolvimento da IA, contador de raspagem

IT Info

A Microsoft visualiza agentes de IA que podem operar desktops e sites no Copilot Studio