French AI Startup Mistral lanserte sine første Open Source Audio AI-modeller, Voxtral, tirsdag, som direkte utfordret dominansen av proprietære systemer fra Google og Openai. Det Paris-baserte selskapet posisjonerer sin nye modellfamilie som et høyytelses, kostnadseffektivt alternativ for utviklere.
Mistral hevder at det leverer topp moderne taleforståelse for mindre prisen til prisen. Voxtral har utgitt under en tillatt Apache 2.0-lisens, og har som mål å demokratisere tilgangen til produksjonsklar taleintelligens med avansert transkripsjon og flerspråklig støtte.
Dette trekket forsterker konkurransen i det raskt voksende markedet for samtale AI. Det styrer en åpen kildekode-tilnærming mot bransjens murede hager. Twith Voxtral, utviklere trenger ikke lenger å velge mellom et billig, men mangelfullt åpent system eller et funksjonelt lukket en.
voxtral er Mistrals open source-svar på proprietær stemme ai
Mistral posisjonerer voxtral som løsningen på et langvarig utviklerdilemma. I årevis måtte teamene velge mellom billige talesystemer med åpen kildekode som ofte hadde høye feilrater og begrenset forståelse, eller kraftige proprietære API-er som fulgte med en høy prislapp og mindre distribusjonskontroll. Voxtral tar sikte på å bygge bro over dette gapet ved å levere det Mistral kaller”virkelig brukbar taleintelligens i produksjon”under en tillatt Apache 2.0-lisens.
Selskapet har gitt ut en familie av modeller som passer til forskjellige behov. Flaggskipet er voxtral liten, en 24 milliarder parametermodell designet for produksjonsskala applikasjoner. For enheter eller lokal bruk er det Voxtral Mini, en mer kompakt parametervariant på 3 milliarder dollar. Til slutt, for kostnadsfølsomme oppgaver med høyt volum, tilbyr Mistral Voxtral Mini Transcribe, en svært optimalisert og nedstrippet versjon fokusert rent på transkripsjon.
Tilgjengeligheten er sentral for Mistrals strategi. Både de små og minimodellene er Tilgjengelig for nedlasting på Hugging Face For lokale og lokale arbeidsmengder. For skybasert integrasjon er modellene tilgjengelige via en enkel API-samtale, med priser som starter på bare $ 0,001 per minutt. Selskapet planlegger også å rulle ut Voxtral i stemmemodus for LE-chat-chatbot.
Voxtrals evner strekker seg langt utover grunnleggende tale-til-tekst, takket være grunnlaget for Mistral Small 3.1-språkmodellen. Denne LLM-ryggraden gir den en dyp semantisk forståelse av lydinnhold. Med et 32.000-token kontekstvindu kan det behandle lydfiler opptil 30 minutter langt for transkripsjon og opptil 40 minutter for å forstå oppgaver, for eksempel å stille komplekse spørsmål om innholdet.
Denne arkitekturen muliggjør en serie avanserte, innebygde funksjoner uten å måtte kjede flere AI-modeller sammen. Voxtral kan utføre native spørsmål og svar og oppsummering, og den støtter funksjonskalling direkte fra stemmekommandoer, og gjør talte intensjoner til handlingsrike systemkommandoer. Den har også automatisk språkdeteksjon, med topp moderne ytelse på mye brukte språk som engelsk, spansk, fransk, tysk og hindi.
I sin kunngjøring understreket Mistral målet om å styrke utviklere og akselerere en stemme-første fremtid. Selskapet uttalte:”Vi slipper Voxtral-modellene for å akselerere denne fremtiden. Disse topp moderne taleforståelsesmodellene er tilgjengelige i to størrelser-en 24B-variant for produksjonsskala-applikasjoner og en 3B-variant for lokal og Edge-distribusjon.”