French AI Startup Mistral lanceerde dinsdag zijn eerste open-source audio AI-modellen, Voxtral, die direct de dominantie van eigen systemen van Google en Openai uitdagen. Het in Parijs gevestigde bedrijf positioneert zijn nieuwe modelfamilie als een hoogwaardige, kosteneffectief alternatief voor ontwikkelaars.
Mistral beweert dat het state-of-the-art speech-inzicht levert voor minder dan de helft van de prijs van de prijs van de prijs van API’s . Voxtral is vrijgegeven onder een permissieve Apache 2.0-licentie en wil de toegang tot productie-ready spraakinformatie met geavanceerde transcriptie en meertalige ondersteuning democratiseren.
Deze beweging versterkt de concurrentie in de snelgroeiende markt voor conversatie AI. Het kampt een open-source aanpak tegen de ommuurde tuinen in de industrie. Twith Voxtral hoeven ontwikkelaars niet langer te kiezen tussen een goedkoop maar gebrekkig open systeem of een functioneel gesloten gesloten.
Voxtral is het open-source antwoord van Mistral op eigen stem AI
Mistral positioneert voxtral als de oplossing voor een al lang bestaande ontwikkelaar Dilemma. Jarenlang moesten teams kiezen tussen goedkope, open-source spraaksystemen die vaak hoge foutenpercentages en beperkt begrip hadden, of krachtige eigen API’s die met een hoog prijskaartje en minder implementatiecontrole werden geleverd. Voxtral wil deze kloof overbruggen door te leveren wat Mistral”echt bruikbare spraakinformatie in de productie”noemt onder een permissieve Apache 2.0-licentie.
Het bedrijf heeft een familie van modellen uitgebracht die aan verschillende behoeften voldoet. Het vlaggenschip is Voxtral Small, een 24-miljard parametermodel ontworpen voor toepassingen op productieschaal. Voor on-evice of lokaal gebruik is er voxtrale mini, een meer compacte 3 miljard parametervariant. Ten slotte, voor kostengevoelige, hoogvolume taken, biedt MILTRAL Voxtral Mini Transcribe, een sterk geoptimaliseerde en gestripte versie die puur is gericht op transcriptie.
Toegankelijkheid staat centraal in de strategie van Mistral. Zowel de kleine als de mini-modellen zijn beschikbaar om te downloaden op knuffel gezicht voor lokale en on-premise werklast. Voor cloud-gebaseerde integratie zijn de modellen toegankelijk via een eenvoudige API-oproep, met prijzen vanaf slechts $ 0,001 per minuut. Het bedrijf is ook van plan om voxtral uit te rollen in de spraakmodus van zijn le chatchatbot.
de mogelijkheden van Voxtral reiken veel verder dan de basisspraak-naar-tekst, dankzij de basis op het Mistral Small 3.1-taalmodel. Deze LLM-ruggengraat geeft het een diep semantisch begrip van audio-inhoud. Met een contextvenster van 32.000 taken kan het audiobestanden verwerken tot 30 minuten lang voor transcriptie en tot 40 minuten voor het begrijpen van taken, zoals het stellen van complexe vragen over de inhoud.
Deze architectuur maakt een reeks geavanceerde, ingebouwde functies mogelijk zonder meerdere AI-modellen samen te houden. Voxtral kan native Q&A en samenvatting uitvoeren en ondersteunt functioneringsgeraliging rechtstreeks van spraakopdrachten, waardoor de gesproken intentie wordt omgezet in bruikbare systeemopdrachten. Het beschikt ook over automatische taaldetectie, met state-of-the-art prestaties in veel gebruikte talen zoals Engels, Spaans, Frans, Duits en Hindi.
In zijn aankondiging benadrukte Mistral zijn doel om ontwikkelaars in staat te stellen en een stem-first toekomst te versnellen. Het bedrijf verklaarde:”We geven de voxtrale modellen uit om deze toekomst te versnellen. Deze staatsmodellen met spraakverstand in de artstop zijn beschikbaar in twee maten-een 24b-variant voor toepassingen op productieschaal en een 3B-variant voor lokale en edge implementaties.”