A startup francesa de IA Mistral lançou seus primeiros modelos de IA de áudio de código aberto, Voxtral, na terça-feira, desafiando diretamente o domínio dos sistemas proprietários do Google e do OpenAI. A empresa sediada em Paris está posicionando sua nova família de modelos como uma alternativa de alto desempenho e econômica para os desenvolvedores. Lançado sob uma licença permissiva do Apache 2.0, a Voxtral visa democratizar o acesso à inteligência de voz pronta para produção com transcrição avançada e suporte multilíngue. Ele defende uma abordagem de código aberto contra os jardins murados da indústria. Twith voxtral, os desenvolvedores não precisam mais escolher entre um sistema aberto barato, mas defeituoso ou um funcional fechado. src=”Dados: imagem/svg+xml; nitro-inempty-id=mty0mzo3mdc=-1; base64, phn2zyb2awv3qm94psiwidagnzuwidqz OCIGD2LKDGG9IJC1MCIGAGVPZ2H0PSI0MZGIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>

O Voxtral é a resposta de fonte aberta de Mistral à voz proprietária AI

Mistral está posicionando o voxtral como a solução para um dilema do desenvolvedor de longa data. Durante anos, as equipes tiveram que escolher entre sistemas de fala baratos e de código aberto que geralmente tinham altas taxas de erro e entendimento limitado, ou APIs proprietárias poderosas que vinham com um alto preço e menos controle de implantação. A Voxtral visa preencher essa lacuna, fornecendo o que a Mistral chama de “inteligência de fala verdadeiramente utilizável na produção” sob uma licença permissiva do Apache 2.0.

A empresa divulgou uma família de modelos para atender às necessidades diferentes. O carro-chefe é o Voxtral Small, um modelo de parâmetro de 24 bilhões projetado para aplicações em escala de produção. Para uso no dispositivo ou local, há Mini Voxtral, uma variante de parâmetro de 3 bilhões mais compacta. Finalmente, para tarefas sensíveis ao custo e de alto volume, o Mistral oferece o Voxtral Mini Transcriba, uma versão altamente otimizada e despojada focada apenas na transcrição.

A acessibilidade é central na estratégia de Mistral. Os modelos pequenos e mini são Disponível para download em Hugging Face Para cargas de trabalho local e no premise. Para integração baseada em nuvem, os modelos são acessíveis por meio de uma chamada de API simples, com preços a partir de apenas US $ 0,001 por minuto. A empresa também planeja lançar o Voxtral no modo de voz de seu chatbot le chat. Este backbone LLM oferece um profundo entendimento semântico do conteúdo de áudio. Com uma janela de contexto de 32.000 toques, ele pode processar arquivos de áudio de até 30 minutos para transcrição e até 40 minutos para entender tarefas, como fazer perguntas complexas sobre o conteúdo. O Voxtral pode executar perguntas e respostas nativas e resumo, e suporta a chamada de função diretamente dos comandos de voz, transformando a intenção falada em comandos de sistema acionável. Ele também apresenta detecção automática de idiomas, com desempenho de última geração em idiomas amplamente utilizados como inglês, espanhol, francês, alemão e hindi. A empresa afirmou: “Libertamos os modelos voxtrais para acelerar esse futuro. Esses modelos de entendimento de fala de última geração estão disponíveis em dois tamanhos-uma variante de 24b para aplicações em escala de produção e uma variante de 3b para a entrada local e a de borda a partir de um aranha, não é um ponto que não é o que não é um ponto de vista geral e o que é um ponto de vista geral e o que é um ponto de vista geral e o que é um dos nutidos e a performance de um dos nutidos e a performance de um dos nutidos e os que não são de um dos nitivos, e o Mistring e o Local e o Firtum a serem o que não é um dos nutidos, o Mistring e o Firtum Afirm a serem um Arena Mistrat e o Mistrat e o Arena

em um arta e um pouco de um aranha, o Arena

Este lançamento desafia diretamente os avanços em andamento da Big Tech. Nos últimos meses, o OpenAI expandiu seu modo de voz avançado para a web, enquanto antropia lançou um modo de voz conversacional para sua IA Claude. A Amazon também fez uma jogada significativa em abril com seu modelo expressivo Nova Sonic em tempo real, que já está sendo integrado ao seu assistente Alexa+. Como os dispositivos da Amazon lideram Panos Panay prometeu:”Quando você usa Alexa+, sentirá isso.”

A inovação não se limita aos gigantes. O mercado também está sendo moldado por startups especializadas explorando nichos diferentes. Em maio, a estabilidade da IA fez uma parceria com a ARM para lançar um modelo de áudio sem royalties, no dispositivo, abordando preocupações de propriedade intelectual usando dados de treinamento de origem ética. O CEO Prem akkaraju destacou o foco na eficiência, afirmando: “Passamos de minutos para meros segundos para gerar áudio inteiramente na CPU do braço no smartphone.”vale. Essa busca filosófica por autenticidade emocional foi capturada por Anjney Midha, de Andreessen Horowitz, que observou: “A planicidade emocional do áudio da IA tem sido exaustiva e não natural. Mas se você remover a exibição visual de AR não é uma das vidro de AR não é uma vez que a experiência de computação é uma experiência de computação e, em vez, focada em um sistema de computação e, em vez de, a experiência de computação é uma experiência de computação e foco em um sistema de computação que se sente em um sistema de computação que se sente em um sistema de computação que se sente em um sistema de computação que se sente como uma quantidade de computação que se sente como uma quantidade de computação que é uma experiência de computação e foco em um sistema de computação e foco. É um movimento estratégico na crescente guerra de talentos da IA. A batalha pelas mentes principais forçou as empresas a construir, comprar ou caçar. A recente aquisição da Meta da Voice AI Startup Playai por US $ 45 milhões é um excelente exemplo dessa tendência.

Para Mistral, Voxtral representa uma etapa significativa. A empresa já anunciou planos para atualizações futuras, incluindo segmentação de alto-falantes, detecção de emoções e registro de data e hora no nível das palavras. Ao oferecer uma alternativa poderosa, aberta e acessível, o Mistral está apostando, pode esclarecer um nicho significativo no futuro da voz.

Categories: IT Info