Ang

French AI startup Mistral ay naglunsad ng una nitong open-source audio na mga modelo ng AI, Voxtral, noong Martes, na direktang hinahamon ang pangingibabaw ng mga sistema ng pagmamay-ari mula sa Google at OpenAI. Ang kumpanya na nakabase sa Paris ay nagpoposisyon ng bagong modelo ng pamilya nito bilang isang mataas na pagganap, alternatibong alternatibo para sa mga developer. Inilabas sa ilalim ng isang pinahihintulutang lisensya ng Apache 2.0, naglalayong ang Voxtral na i-democratize ang pag-access sa katalinuhan na handa ng boses na may advanced na transkripsyon at suporta sa multilingual. Ito ay nagwagi ng isang bukas na mapagkukunan na diskarte laban sa mga pader na hardin ng industriya. Twith Voxtral, ang mga nag-develop ay hindi na kailangang pumili sa pagitan ng isang murang ngunit flawed open system o isang functional na sarado. src=”data: imahe/svg+xml; nitro-empty-id=mty0mzo3mdc=-1; base64, phn2zyb2awv3qm94psiwidagnzuwidqz OCIGD2LKDGG9IJC1MCIGAGVPZ2H0PSI0MZGIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2zyi+PC9ZDMC+”>

Ang Voxtral ay bukas na mapagkukunan ng Mistral sa pagmamay-ari ng boses na AI

Sa loob ng maraming taon, ang mga koponan ay kailangang pumili sa pagitan ng murang, bukas na mapagkukunan ng mga sistema ng pagsasalita na madalas ay may mataas na mga rate ng error at limitadong pag-unawa, o malakas na pagmamay-ari ng mga API na dumating na may isang mataas na tag na presyo at mas kaunting kontrol sa pag-deploy. Nilalayon ng Voxtral na tulay ang puwang na ito sa pamamagitan ng paghahatid ng tinatawag na Mistral na”tunay na magagamit na katalinuhan sa pagsasalita sa paggawa”sa ilalim ng isang pinahihintulutang lisensya ng Apache 2.0. Ang punong barko ay maliit na voxtral, isang 24-bilyong modelo ng parameter na idinisenyo para sa mga application na scale-scale. Para sa on-aparato o lokal na paggamit, mayroong voxtral mini, isang mas compact na 3-bilyong variant ng parameter. Sa wakas, para sa mga sensitibo sa gastos, mataas na dami ng mga gawain, nag-aalok ang Mistral ng voxtral mini transcribe, isang lubos na na-optimize at hinubaran na bersyon na nakatuon lamang sa transkripsyon.

Ang pag-access ay sentro sa diskarte ni Mistral. Parehong ang mga maliliit at mini na modelo ay magagamit para sa pag-download sa yakap na mukha Para sa lokal at on-premise na mga workload. Para sa pagsasama na batay sa ulap, ang mga modelo ay maa-access sa pamamagitan ng isang simpleng tawag sa API, na may pagpepresyo na nagsisimula sa $ 0.001 bawat minuto. Plano rin ng kumpanya na i-roll ang voxtral sa mode ng boses ng le chat chatbot nito. Ang gulugod ng LLM na ito ay nagbibigay ng isang malalim na semantikong pag-unawa sa nilalaman ng audio. Sa pamamagitan ng isang 32,000-token na window ng konteksto, maaari itong iproseso ang mga audio file hanggang sa 30 minuto ang haba para sa transkripsyon at hanggang sa 40 minuto para sa pag-unawa sa mga gawain, tulad ng pagtatanong ng mga kumplikadong katanungan tungkol sa nilalaman. Ang Voxtral ay maaaring magsagawa ng katutubong Q&A at pagbubuod, at sinusuportahan nito ang pag-andar ng direkta mula sa mga utos ng boses, na binibigkas ang sinasalita na hangarin sa aksyon na mga utos ng system. Nagtatampok din ito ng awtomatikong pagtuklas ng wika, na may pagganap ng state-of-the-art sa malawak na ginagamit na mga wika tulad ng Ingles, Espanyol, Pranses, Aleman, at Hindi. Sinabi ng kumpanya,”Inilabas namin ang mga modelo ng voxtral upang mapabilis ang hinaharap na ito. Ang mga estado na ito-ng mga modelo ng pag-unawa sa pagsasalita ng sining ay magagamit sa dalawang sukat-isang 24B na variant para sa mga aplikasyon ng produksyon-scale at isang variant ng 3B para sa mga lokal at gilid na pag-deploy.”Ang matinding kumpetisyon, kung saan ang mga higanteng tech at maliksi na mga startup ay lahat ay naninindigan para sa pangingibabaw sa hinaharap ng pakikipag-ugnay sa boses. Upang mai-back ang mga pag-angkin nito, pinakawalan ni Mistral ang nakakahimok na data ng benchmark na nagpoposisyon sa Voxtral bilang pinuno sa parehong pagganap at kahusayan sa gastos. Sa benchmark ng Fleurs, ang Voxtral Small at Mini ay nag-transcribe na umupo sa pinakamainam na gilid ng curve na pagganap ng presyo, na naghahatid ng mas mababang mga rate ng error kaysa sa gemini ng Google 2.5 flash at GPT-4O mini transcribe para sa isang bahagi ng gastos. at Pranses. Habang ang tagasulat ng ElevenLabs ay nag-post ng isang marginally na mas mababang rate ng error sa ilang mga pangmatagalang gawain sa Ingles, ginagawa ito nang higit sa doble ang presyo ng maliit na voxtral, pinalakas ang halaga ng Mistral. src=”data: imahe/svg+xml; nitro-empty-id=mty0nto3ndq=-1; base64, phn2zyb2awv3qm94psiwidagoda3idq1ny Igd2lkdgg9ijgwnyigagvpz2h0psi0ntciihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Ang paglulunsad na ito ay direktang hinamon ang patuloy na pagsulong mula sa Big Tech. Sa mga nagdaang buwan, pinalawak ng OpenAI ang advanced na mode ng boses sa web, habang ang antropiko ay gumulong ng isang mode ng pag-uusap para sa Claude AI. Gumawa din ang Amazon ng isang makabuluhang hakbang noong Abril kasama ang real-time na nagpapahayag na modelo ng Nova Sonic, na isinama na sa katulong na Alexa+. Tulad ng ipinangako ng mga aparato ng Amazon na panos Panay,”Kapag ginamit mo ang Alexa+, mararamdaman mo ito.”

Ang pagbabago ay hindi limitado sa mga higante. Ang merkado ay hinuhubog din ng dalubhasang mga startup na naggalugad ng iba’t ibang mga niches. Noong Mayo, ang katatagan ng AI ay nakipagtulungan sa ARM upang palabasin ang isang on-aparato, modelo ng audio-free na royalty, pag-tackle ng mga alalahanin sa intelektwal na pag-aari sa pamamagitan ng paggamit ng data ng pagsasanay sa etikal. Itinampok ng CEO Prem Akkaraju ang pokus sa kahusayan, na nagsasabi,”Lumipat kami mula sa ilang minuto hanggang sa mga segundo lamang upang makabuo ng audio sa kabilang dulo ng spectrum, ang mga startup tulad ng sesame ai ay nagtutulak sa mga hangganan ng realismo, na lumilikha ng”eerily ng tao-tumitulong”na mga katulong na sumisira sa mga hindi impeksyon tulad ng mga pausses at stutters sa cross”na mga katulong na sumisira sa mga hindi perpekto tulad ng pain at stutters sa cross”na mga katulong na sumisiksik na hindi niyakap ang mga impresyon at mga stutters sa pagtawid”na mga katulong na sumisira sa mga hindi kanais-nais na mga pausses. Uncanny Valley. Ang pilosopikal na paghahanap para sa pagiging tunay ng emosyonal na ito ay nakuha ni Andreessen Horowitz’s Anjney Midha, na nabanggit,”Ang emosyonal na flatness ng AI audio ay nakakapagod at hindi likas. Ngunit kung tinanggal mo ang visual na pagpapakita mula sa mga baso ng AR at sa halip ay nakatuon sa isang kamangha-manghang audio-first AI system, maaari kang lumikha ng isang karanasan sa computing na naramdaman na walang sealless…”Ito ay isang madiskarteng hakbang sa tumataas na digmaang talento ng AI. Ang labanan para sa mga nangungunang isip ay pinilit ang mga kumpanya na magtayo, bumili, o poach. Ang kamakailang pagkuha ng Meta ng Voice AI Startup Playai para sa naiulat na $ 45 milyon ay isang pangunahing halimbawa ng kalakaran na ito. Inihayag na ng kumpanya ang mga plano para sa mga pag-update sa hinaharap, kabilang ang segmentasyon ng speaker, pagtuklas ng damdamin, at mga timestamp ng antas ng salita. Sa pamamagitan ng pag-aalok ng isang malakas, bukas, at abot-kayang alternatibo, ang Mistral ay pagtaya maaari itong mag-ukit ng isang makabuluhang angkop na lugar sa hinaharap na boses.

Categories: IT Info