Ranskan AI-startup Mistral käynnisti tiistaina ensimmäisen avoimen lähdekoodin AUDIO AI-mallit, Voxtral, haastaen suoraan Googlen ja Openain omistamien järjestelmien hallitsevuuden. Pariisissa toimiva yritys sijoittaa uuden malliperheensa korkean suorituskyvyn, kustannustehokkaan vaihtoehdon kehittäjille.

Mistral väittää, että se toimittaa puheenvuoron ymmärtämisen vähemmän kuin puolet kilpailevan APIS . Voxtral pyrkii sallitun Apache 2.0-lisenssin nojalla, ja se on demokratisoida pääsy tuotantovalmiun äänen älykkyyteen edistyneellä transkriptiolla ja monikielisellä tuella.

Tämä siirto vahvistaa kilpailua nopeasti kasvavilla keskustelujen AI-markkinoilla. Se puolustaa avoimen lähdekoodin lähestymistapaa alan seinämäisiä puutarhoja vastaan. Twith Voxtraal, kehittäjien ei enää tarvitse valita halpaa, mutta virheellistä avointa järjestelmää tai toiminnallista suljettua.

voxtraal on Mistralin avoimen lähdekoodin vastaus omaan ääneen AI

Mistral sijoittaa vokstraalisesti liuoksena pitkäaikaiseen kehittäjän dilemmaan. Joukkueiden oli vuosien ajan valita halpojen, avoimen lähdekoodin puhejärjestelmien välillä, joilla oli usein korkeat virhetasot ja rajoitettu ymmärrys tai voimakkaat omistusoikeudelliset sovellusliittymät, joilla oli korkea hintamerkki ja vähemmän käyttöönoton hallinta. Voxtraalin tavoitteena on ylittää tämä aukko toimittamalla Mistral kutsuu “todella käyttökelpoiseksi puhetiedustelua tuotannossa” sallitun Apache 2.0-lisenssin nojalla.

Yhtiö on julkaissut malliperheen erilaisiin tarpeisiin. Lippulaiva on voxtral Small, 24 miljardin parametrimalli, joka on suunniteltu tuotanto-asteikon sovelluksiin. Laitteessa tai paikallisessa käytössä on vokstraalista mini, kompakti 3 miljardin parametrivariantti. Lopuksi, Mistral tarjoaa kustannusherkät, suuria volyymitehtäviä, jotka tarjoavat vokstraalista mini-transkribtia, erittäin optimoitu ja irrotettu versio, joka keskittyy puhtaasti transkriptioon.

saavutettavuus on keskeinen Mistralin strategiaan. Sekä pienet että mini-mallit ovat ladattavissa halaus kasvoihin paikallisille ja paikallisille työmäärille. Pilvipohjaiseen integrointiin malleihin pääsee yksinkertaisella API-puhelulla, hinnoittelu alkaa vain 0,001 dollaria minuutissa. Yhtiö aikoo myös levittää voxtraalin Le-chat-chatbotin äänitalossa.

voxtralin ominaisuudet ulottuvat huomattavasti pidemmälle puhe-teksti-tekstin perusteella sen perustan Mistral Small 3.1-kielimallin perusteella. Tämä LLM-selkäranka antaa sille syvän semanttisen ymmärryksen äänisisällöstä. 32 000-Toiss Context-ikkunassa se voi käsitellä jopa 30 minuutin pituisia äänitiedostoja transkriptioon ja jopa 40 minuuttia tehtävien ymmärtämiseksi, kuten monimutkaisten kysymyksien esittäminen sisällöstä.

Tämä arkkitehtuuri mahdollistaa edistyneiden, sisäänrakennetujen ominaisuuksien sarjan ilman, että se on ketjuttanut useita AI-malleja. Voxtraal voi suorittaa natiivia Q&A: ta ja yhteenvetoa, ja se tukee funktion soittamista suoraan äänikomennoista kääntämällä puhutun aikomuksen toimiviksi järjestelmäkomennoiksi. Siinä on myös automaattinen kielen havaitseminen, ja huipputekniset esitykset ovat laajalti käytetyillä kielillä, kuten englanti, espanja, ranska, saksa ja hindi.

ilmoituksessaan Mistral korosti tavoitettaan antaa kehittäjille voimaannuttaminen ja äänen ensimmäisen tulevaisuuden kiihdyttäminen. Yhtiö totesi: “Julkaisemme voxtraalimalleja tämän tulevaisuuden nopeuttamiseksi. Näitä osavaltiota puheyhteysmalleja on saatavana kahdessa koossa-24b-variantissa tuotanto-asteikkojen sovelluksille ja 3B-variantti paikallisille ja reunan käyttöönottoille.”Intensiivinen kilpailu, jossa teknologia jättiläiset ja ketterät startup-yritykset kilpailevat hallitsevan aseman tulevaisuudessa. Väitteidensä tukemiseksi Mistral julkaisi pakottavan vertailutietojen sijoittamisen voxtraaliksi sekä suorituskyvyn että kustannustehokkuuden johtajana. Fleurs-vertailukohdassa voxtral Small ja Mini Transkribti istuu hinta-suorituskyvyn käyrän optimaalisella reunalla, toimittaen alhaisemmat virhetasot kuin Googlen Gemini 2.5 Flash ja Openain GPT-4O Mini Transcript for for frost aihe. Vaikka ElevenLabsin kirjoittaja lähettää hiukan alhaisemman virhesuhteen joissakin pitkämuotoisissa englanninkielisissä tehtävissä, se tekee niin yli kaksinkertaisen pienen, vahvistavan Mistralin arvoehdotuksen hinnan.

Tämä lanseeraus haastaa suoraan Big Techin meneillään olevat edistykset. Viime kuukausina Openai laajensi edistynyttä äänitilaansa verkkoon, kun taas antropia levitti keskustelutilaa Claude AI: lle. Amazon teki myös merkittävän muutoksen huhtikuussa reaaliaikaisella ilmeikkällä Nova Sonic-mallillaan, joka on jo integroitu Alexa+-apulaiseensa. Kun Amazonin laitteet johtavat Panos Panay lupasi: “Kun käytät Alexa+, tunnet sen.”

Innovaatio ei rajoitu jättiläisiin. Markkinoita muokkaavat myös erikoistuneita startup-yrityksiä, jotka tutkivat erilaisia markkinarakoja. Toukokuussa Stability AI teki yhteistyötä ARM: n kanssa laitteen, rojaltivapaan äänimallin julkaisemiseksi, immateriaalioikeuksien huolenaiheiden ratkaisemiseksi eettisesti hankittujen koulutustietojen avulla. Toimitusjohtaja Prem Akkaraju korosti tehokkuuteen keskittymistä ja totesi: “Siirrimme minuutteista vain sekunteihin luodaksemme äänen kokonaan älypuhelimen käsivarren prosessorissa.”

Spektrin toisessa päässä Sesame AI: n kaltaiset aloittavat yritykset luovat realismin rajoja ja”ilahduttavia ihmisen sountoja”avustajia. laakso. Andreessen Horowitzin Anjney Midha vangitsi tämän filosofisen etsinnän emotionaaliseen aitouteen, joka totesi: “AI-äänen emotionaalinen tasaisuus on ollut uuvuttavaa ja luonnotonta. Mutta jos poistat visuaalisen näytön AR-lasista ja keskit sen sijaan hämmästyttävään audio-ensimmäiseen AI-järjestelmään, voit luoda laskentakokemuksen, joka tuntuu saumattomalta…”. Se on strateginen siirto lisääntyvässä AI-kykyjen sodassa. Taistelu Top Mindsista on pakottanut yritykset joko rakentamaan, ostamaan tai salametsästä. Meta: n äskettäinen ääni AI-startup Playai ilmoitetulle 45 miljoonalla dollarilla on erinomainen esimerkki tästä suuntauksesta. Yhtiö on jo ilmoittanut tulevien päivitysten suunnitelmista, mukaan lukien puhujan segmentointi, tunteiden havaitseminen ja sanatason aikaleimat. Tarjoamalla voimakkaan, avoimen ja edullisen vaihtoehdon Mistral on vedonlyönti, että se voi kerätä merkittävän kapean äänen ensimmäisessä tulevaisuudessa.

Categories: IT Info