Startup AI francez Mistral a lansat marți primele sale modele AI audio open-source, Voxtral, provocând direct dominanța sistemelor proprii de la Google și OpenAI. Compania cu sediul în Paris își poziționează noua familie de model ca o alternativă de înaltă performanță, rentabilă pentru dezvoltatori.

Mistral revendică că oferă înțelegere de vorbire de stat-of-the-iart pentru mai puțin decât jumătate din preț al apelor concurente . Lansat sub o licență permisivă Apache 2.0, Voxtral își propune să democratizeze accesul la inteligența vocală pregătită pentru producție, cu transcriere avansată și suport multilingv.

Această mișcare intensifică concurența pe piața în creștere rapidă a AI-ului conversațional. Acesta campionează o abordare open-source împotriva grădinilor zidite ale industriei. Twith Voxtral, dezvoltatorii nu mai trebuie să aleagă între un sistem deschis ieftin, dar defectuos sau unul închis funcțional.

accesibilitatea este centrală pentru strategia Misttral. Atât modelele mici, cât și cele mini sunt Disponibil pentru descărcare pe Hugging Face pentru sarcini de muncă locale și la preț. Pentru integrarea bazată pe cloud, modelele sunt accesibile printr-un apel API simplu, prețurile începând de la doar 0,001 USD pe minut. De asemenea, compania intenționează să-l extindă pe Voxtral în modul Voice al Chatbotului său de chat.

Capabilitățile Voxtral se extind cu mult peste un text-text de bază de bază, datorită fundamentului său pe modelul de limbă Mistral Small 3.1. Această coloană vertebrală LLM îi oferă o înțelegere semantică profundă a conținutului audio. Cu o fereastră de context de 32.000 de tocuri, poate prelucra fișiere audio de până la 30 de minute pentru transcriere și până la 40 de minute pentru înțelegerea sarcinilor, cum ar fi să pună întrebări complexe despre conținut.

Această arhitectură permite o suită de funcții avansate și încorporate, fără a fi nevoie să lanseze mai multe modele AI împreună. Voxtral poate efectua Q&A native și rezumarea și acceptă apelul funcțiilor direct de la comenzile vocale, transformând intenția vorbită în comenzi de sistem acționabile. De asemenea, prezintă o detectare automată a limbii, cu performanțe de ultimă generație în limbi utilizate pe scară largă precum engleză, spaniolă, franceză, germană și hindi.

În anunțul său, Mistral și-a subliniat obiectivul de a împuternici dezvoltatorii și de a accelera un viitor în primul rând. Compania a declarat: „Eliberăm modelele voxtrale pentru a accelera acest viitor. Aceste modele de înțelegere a vorbirii de stat sunt disponibile în două dimensiuni-o variantă de 24b pentru aplicații la scară de producție și o variantă 3B pentru implementări locale și de margine.”

Performanța într-o arenă aglomerată și competitivă de o concurență intensă, în care giganții tehnologici și startup-urile agile sunt toate concurează pentru dominare în viitorul interacțiunii vocale. Pentru a-și susține afirmațiile, Mistral a lansat convingătoare date de referință a datelor Voxtral ca lider atât în performanță, cât și în rentabilitate. Pe referința Fleurs, Voxtral Small and Mini Transcricc se află pe marginea optimă a curbei de performanță a prețurilor, oferind rate de eroare mai mici decât transcrierea Google Gemini 2.5 Flash și OpenAI GPT-4O transcrie pentru o fracțiune din cost. În timp ce scribul ElevenLabs înregistrează o rată de eroare marginal mai mică la unele sarcini în limba engleză de formă lungă, aceasta face acest lucru mai mult decât dublul prețului voxtralului mic, consolidând propunerea de valoare a lui Mistral.

Categories: IT Info