A
French AI Startup Mistral kedden elindította első nyílt forrású audio AI modelljét, a Voxtral-t, közvetlenül kihívva a Google és az Openai védett rendszereinek dominanciáját. A párizsi székhelyű vállalat új modellcsaládját nagy teljesítményű, költséghatékony alternatívának tekinti a fejlesztők számára. A Permissive Apache 2.0 licenc alatt kiadott Voxtral célja, hogy fejlett transzkripcióval és többnyelvű támogatással demokratizálja a produkcióra kész hangszerelést. Ez egy nyílt forráskódú megközelítést bajnok az ipar fallal körülvett kertjeivel szemben. Twith voxtral, a fejlesztőknek már nem kell választaniuk egy olcsó, de hibás nyitott rendszer vagy egy funkcionális zárt között. src=”adatok: image/svg+xml; nitro-üres-id=mty0mzo3mdc=-1; base64, phn2zyb2awv3qm94psiwidagnzuwidqzz OCIGD2LKDGG9IJC1MCIGAGVPZ2H0PSI0MZGIIHHTBG5ZPSJODHRWOI8VD3D3D3LNCZLM9YY8YMDAWL3N2ZYI+PC9ZDMC+”>”>”>”>”>”>”>”>”>
A voxtral a Mistral nyílt forráskódú válasza a védett hangra Ai
Mistral a Voxtral-t a régóta fennálló fejlesztői dilemmának a megoldásaként helyezi el. A csapatoknak évek óta kellett választaniuk az olcsó, nyílt forráskódú beszédrendszereket, amelyek gyakran magas hibaarányt és korlátozott megértést, vagy erőteljes szabadalmaztatott API-kat, amelyek magas árcédulával és kevesebb telepítési ellenőrzéssel érkeztek. A Voxtral célja, hogy áthidalja ezt a rést azáltal, hogy a Mistral „valóban használható beszédszervezetet a termelésben” nevezi egy megengedő Apache 2.0 licenc alatt. A zászlóshajó a Voxtral Small, egy 24 milliárd milliárd paraméter modell, amelyet termelési skála alkalmazásokhoz terveztek. Az eszköz vagy a helyi felhasználáshoz voxtrális mini, egy kompaktabb 3 milliárd paraméterváltozat. Végül, a költségérzékeny, nagy volumenű feladatokhoz a Mistral a Voxtral Mini átírást kínálja, egy nagyon optimalizált és lecsupaszított verziót, amely pusztán a transzkripcióra összpontosít. Mind a kicsi, mind a mini modellek Letölthető az ölelésre a helyi és a prepremise munkaterhelésekhez. A felhőalapú integrációhoz a modellek egyszerű API-híváson keresztül érhetők el, az árképzés mindössze 0,001 dolláronként kezdődik. A vállalat azt is tervezi, hogy a Voxtral-t a Le Chat chatbot hangmódjában dobja. Ez az LLM gerinc mély szemantikai megértést ad az audio-tartalomról. Egy 32 000-es kontextus ablakkal feldolgozhatja az audiofájlokat, akár 30 percig, és akár 40 percet is képes feldolgozni a feladatok megértésére, például összetett kérdések feltevése a tartalommal kapcsolatban. A Voxtral natív Q & A-t és összefoglalást végezhet, és támogatja a funkcióhívást közvetlenül a hangparancsokból, és a beszélt szándékot cselekvhető rendszerparancsokká változtatja. Ezenkívül az automatikus nyelvfelismeréssel rendelkezik, a legmodernebb teljesítményű, olyan széles körben használt nyelveken, mint az angol, a spanyol, a francia, a német és a hindi nyelv. A társaság kijelentette: „A voxtral modelleket engedjük fel a jövő felgyorsítása érdekében. Ezek a műszeres beszédmegértési modellek két méretben kaphatók-24B-os változat a termelési skála alkalmazásokhoz és egy 3B-os változatot a helyi és az élek telepítéséhez.”Intenzív verseny, ahol a technológiai óriások és az agilis induló vállalkozások mind a hang interakció jövőben dominanciáért versenyeznek. A követeléseinek alátámasztása érdekében a Mistral a Voxtral vonzó referencia-adatmeghatározó adatait adta ki mind a teljesítmény, mind a költséghatékonyság vezetőjeként. A Fleurs referenciaértékén a Voxtral Small és a Mini átírja az ár-teljesítménygörbe optimális szélén, alacsonyabb hibaarányt biztosítva, mint a Google Gemini 2.5 Flash és az Openai GPT-4O mini, a költségek töredékét. Francia. Míg a tizenegyedik írástudó jelentése kissé alacsonyabb hibaarányt tesz közzé néhány hosszú formájú angol feladattal, ez több mint kétszerese a voxtral kicsi árának, megerősítve a Mistral értékjavaslatát. src=”adatok: image/svg+xml; nitro-üres-id=mty0nto3ndq=-1; base64, phn2zyb2awv3qm94psiwidagoda3idq1nyy IGD2LKDGG9IJGWNIGAGVPZ2H0PSI0NTCIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>
Ez az indítás közvetlenül megkérdőjelezi a Big Tech folyamatban lévő fejlődését. Az elmúlt hónapokban az OpenAi kibővítette fejlett hangmódját az interneten, míg az antropikus Claude AI beszélgetési hangmódját dobta ki. Az Amazon áprilisban is jelentős lépést tett a valós idejű expresszív Nova Sonic modelljével, amelyet már integrálnak az Alexa+ asszisztensbe. Ahogy az Amazon eszközei vezetik a Panos Panay-t, megígérte: „Amikor az Alexa+-ot használja, akkor ezt fogja érezni.”
Az innováció nem korlátozódik az óriásokra. A piacot speciális induló vállalkozások is alakítják, amelyek különféle réseket vizsgálnak. Májusban az AI stabilitása az ARM-mel együttműködött egy eszközön, jogdíjmentes audio modell kiadásában, a szellemi tulajdonnak az etikailag forrásból származó képzési adatok felhasználásával. Prem Akkaraju vezérigazgató kiemelte a hatékonyságra összpontosítást, kijelentve: „Percekről csupán másodpercekre költöztünk, hogy az okostelefonon teljes egészében audio-t generáljunk.”völgy. Ezt az érzelmi hitelesség filozófiai törekvését Andreessen Horowitz Anjney Midha rögzítette, aki megjegyezte: „Az AI audio érzelmi lapossága kimerítő és természetellenes volt. De ha eltávolítja a látványt az AR szemüvegekről, és ehelyett egy csodálatos audio-first rendszerre összpontosít, nem csak egy műszaki milthit, nem csak a műszaki mérőeszközök; Ez egy stratégiai lépés az eszkaláló tehetségháborúban. A Top Mindsért folytatott csata arra kényszerítette a vállalatokat, hogy építsenek, vásároljanak vagy orvvaduljanak. A Meta nemrégiben megvásárolta a Voice AI Startup PlayAI-t egy bejelentett 45 millió dolláros playai számára ennek a tendenciának a kiváló példája. A vállalat már bejelentette a jövőbeli frissítések terveit, ideértve a hangszórók szegmentálását, az érzelmek észlelését és a szószintű időbélyegeket. Ha egy hatalmas, nyitott és megfizethető alternatívát kínál, a Mistral fogadja, hogy jelentős rést okozhat a hang első jövőben.