Startup French AI Mistral ha lanciato i suoi primi modelli audio AI open source, Voxtral, martedì, sfidando direttamente il dominio dei sistemi proprietari di Google e Openai. La società con sede a Parigi sta posizionando la sua nuova famiglia di modelli come un’alternativa ad alte prestazioni e conveniente per gli sviluppatori.

Afferma Mistral che offre una comprensione del discorso statale-art per meno del prezzo di competizione . Rilasciato con una licenza permissiva Apache 2.0, Voxtral mira a democratizzare l’accesso all’intelligenza vocale pronta per la produzione con trascrizione avanzata e supporto multilingue.

Questa mossa intensifica la concorrenza nel mercato in rapida crescita per l’IA conversazionale. Fa un approccio open source contro i giardini murati del settore. Twith Voxtral, gli sviluppatori non devono più scegliere tra un sistema aperto a buon mercato ma imperfetto o uno chiuso funzionale.

Il voxtral è la risposta open source di Mistral alla voce proprietaria ai

che il maestrale sta posizionando il voxtral come soluzione a un dilemma di lunga data dello sviluppatore. Per anni, i team hanno dovuto scegliere tra sistemi vocali a buon mercato che spesso avevano alti tassi di errore e comprensione limitata o potenti API proprietarie che avevano un prezzo elevato e un minor controllo della distribuzione. Voxtral mira a colmare questa lacuna fornendo ciò che Mistral chiama”intelligenza vocale veramente utilizzabile in produzione”con una licenza permissiva Apache 2.0.

La società ha rilasciato una famiglia di modelli per soddisfare le diverse esigenze. L’ammiraglia è voxtral piccolo, un modello di parametro da 24 miliardi progettato per applicazioni su scala di produzione. Per uso sul dispositivo o locale, esiste un mini voxtral, una variante di parametro da 3 miliardi più compatta. Infine, per attività sensibili ai costi e ad alto volume, Mistral offre mini trascrizione voxtral, una versione altamente ottimizzata e spogliata focalizzata esclusivamente sulla trascrizione.

L’accessibilità è fondamentale per la strategia di Mistral. Entrambi i modelli piccoli e mini sono disponibili per il download su abbracci per carichi di lavoro locali e on-premise. Per l’integrazione basata su cloud, i modelli sono accessibili tramite una semplice chiamata API, con prezzi a partire da soli $ 0,001 al minuto. La società prevede inoltre di implementare Voxtral nella modalità vocale del suo chatbot Le Chat.

Le capacità di Voxtral si estendono ben oltre il discorso di base, grazie alla sua base sul modello di lingua 3.1 Mistral. Questa spina dorsale LLM gli dà una profonda comprensione semantica del contenuto audio. Con una finestra di contesto di 32.000 token, può elaborare file audio fino a 30 minuti per la trascrizione e fino a 40 minuti per comprendere le attività, come porre domande complesse sul contenuto.

Questa architettura consente una suite di funzionalità avanzate e integrate senza bisogno di incazzare più modelli di AI insieme. Voxtral può eseguire domande e risposte native e riassunzione e supporta la funzione di calma direttamente dai comandi vocali, trasformando l’intento parlato in comandi di sistema attuabili. Presenta anche un rilevamento automatico delle lingue, con prestazioni all’avanguardia in lingue ampiamente usate come inglese, spagnolo, francese, tedesco e hindi.

Nel suo annuncio, Mistral ha sottolineato il suo obiettivo di potenziare gli sviluppatori e accelerare un futuro vocale. La società ha dichiarato:”Rilasciamo i modelli Voxtral per accelerare questo futuro. Questi modelli di comprensione del linguaggio statale sono disponibili in due dimensioni: una variante 24B per applicazioni su scala di produzione e una variante 3B per le distribuzioni locali e di bordo. intensa concorrenza, in cui i giganti tecnologici e le startup agili stanno tutti in lizza per il dominio nel futuro dell’interazione vocale. A sostegno delle sue affermazioni, Mistral ha rilasciato il posizionamento dei dati di benchmark avvincente di voxtral come leader sia nella performance che nell’efficienza in termini di costi. Sul punto di riferimento Fleurs, voxtral piccoli e mini trascrivi si siedono sul bordo ottimale della curva delle prestazioni dei prezzi, fornendo tassi di errore più bassi rispetto ai gemini 2.5 di Google Gemini 2.5 Flash e Openi GPT-4O di GPT-4O di Openi, Mini trascrivi per una frazione europea come italiani, italiani. Mentre lo scriba di ElevenLabs pubblica un tasso di errore marginalmente più basso su alcune attività inglesi a forma di lunga durata, lo fa a più del doppio del prezzo del voxtrale piccolo, rafforzando la proposta di valore di Mastral.

Questo lancio sfida direttamente i progressi in corso da Big Tech. Negli ultimi mesi, Openai ha ampliato la sua modalità vocale avanzata sul Web, mentre Antropic ha lanciato una modalità vocale conversazionale per la sua AI Claude. Amazon ha anche fatto una mossa significativa in aprile con il suo modello Nova Sonic espressivo in tempo reale, che è già integrato nel suo assistente Alexa+. Mentre i dispositivi di Amazon guidano Panos Panay promettendo:”Quando usi Alexa+, lo sentirai.”

L’innovazione non si limita ai giganti. Il mercato è anche modellato da startup specializzate che esplorano diverse nicchie. A maggio, la stabilità AI ha collaborato con ARM per rilasciare un modello audio sul dispositivo e senza royalty, affrontando le preoccupazioni sulla proprietà intellettuale utilizzando i dati di formazione etica. Il CEO Prem Akkaraju ha messo in evidenza l’attenzione sull’efficienza, affermando:”Ci siamo spostati dai minuti ai pochi secondi per generare audio interamente sulla CPU ARM sullo smartphone.”

all’altra estremità dello spettro, startups come sesamo da parte di sesamo. valle. Questa ricerca filosofica per l’autenticità emotiva è stata catturata da Anjney Midha di Andreessen Horowitz, che ha osservato:”La piattalità emotiva dell’audio AI è stata estenuante e innaturale. Ma se rimuovi la display visiva dagli occhiali AR e si concentrano invece di un sistema audio-primo. È una mossa strategica nella crescente guerra dei talenti dell’IA. La battaglia per Top Minds ha costretto le compagnie a costruire, acquistare o fare il bracconaggio. La recente acquisizione di Meta di Voice AI Startup Playup Playup per $ 45 milioni segnalati è un ottimo esempio di questa tendenza.

Per il maestral, Voxtral rappresenta un passo significativo. La società ha già annunciato piani per aggiornamenti futuri, tra cui segmentazione degli altoparlanti, rilevamento delle emozioni e timestamp a livello di parole. Offrendo un’alternativa potente, aperta e conveniente, Mistral sta scommettendo, può ritagliarsi una nicchia significativa nel primo futuro.

Categories: IT Info