Mistral rzuca wyzwanie Openai i Google z nowym modelem Voxtral Open-Source AI Model

French AI Startup Mistral uruchomił we wtorek swoje pierwsze modele AI Audio Open Source, Voxtral, bezpośrednio kwestionując dominację zastrzeżonych systemów z Google i Openai. Paryżowa firma pozycjonuje swoją nową rodzinę modelową jako wysokowydajną, opłacalną alternatywę dla programistów.

Mistral twierdzi, że dostarcza najnowocześniejsze zrozumienie mowy dla mniej niż połowa ceny akcji APIS . Wydany na licencji APACHES 2.0, Voxtral ma na celu demokratyzację dostępu do wywiadu głosowego gotowego do produkcji z zaawansowaną transkrypcją i wielojęzycznym wsparciem.

Ten ruch nasila konkurencję na szybko rozwijającym się rynku konwersacji AI. Opowiada podejście open source z ogrodami w branży. Twith voxtral, programiści nie muszą już wybierać między tanim, ale wadliwym systemem otwartym lub funkcjonalnym zamkniętym. src=”data: image/svg+xml; nitro-empty-id=mty0mzo3mdc=-1; base64, phn2zyB2awv3qm94psiwidagnzuWidqz Ocigd2lkdgg9ijc1mcigagvpz2h0psi0mzgihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Voxtral jest odpowiedzią Mistrala na otwartym poziomie źródłowym na zastrzeżoną AI

Mistral pozycjonuje Voxtral jako rozwiązanie długotrwałego dylematu dewelopera. Przez lata zespoły musiały wybierać między tanimi, mowy typu open source, które często miały wysokie poziomy błędów i ograniczone zrozumienie, lub potężnymi zastrzeżonymi interfejsami API, które miały wysoką cenę i mniejszą kontrolę wdrażania. Voxtral ma na celu wypełnienie tej luki poprzez dostarczenie tego, co Mistral nazywa „prawdziwie użyteczną inteligencją mowy w produkcji” zgodnie z dopuszczalną licencją Apache 2.0.

Firma wydała rodzinę modeli w celu dostosowania do różnych potrzeb. Flagowym jest Voxtral Small, 24-miliardowy model parametrów zaprojektowany do zastosowań w skali produkcji. W celu użytku na urządzeniu lub lokalnym znajduje się Voxtral Mini, bardziej kompaktowy wariant parametrów 3-miliardowy. Wreszcie, w przypadku wrażliwych na koszty zadań o dużej objętości, Mistral oferuje Voxtral Mini transkrybność, wysoce zoptymalizowaną i usuniętą wersję skoncentrowaną wyłącznie na transkrypcji.

Dostępność ma kluczowe znaczenie dla strategii Mistrala. Zarówno małe, jak i mini modele to do pobrania na Hugging Face dla prac lokalnych i lokalnych. W przypadku integracji opartej na chmurze modele są dostępne za pomocą prostego połączenia API, a ceny zaczynają się zaledwie 0,001 USD za minutę. Firma planuje również wprowadzić Voxtral w trybie głosowym swojego czatu LE Chatbot.

Możliwości Voxtral wykraczają daleko poza podstawowy mowę do tekstu, dzięki jego podstawowi na temat Mistral Small Language Model. Ten kręgosłup LLM nadaje mu głębokie semantyczne zrozumienie treści audio. Dzięki 32 000-letnim oknie kontekstowym może przetwarzać pliki audio do 30 minut w przypadku transkrypcji i do 40 minut w celu zrozumienia zadań, takich jak zadawanie złożonych pytań na temat treści.

Ta architektura umożliwia pakiet zaawansowanych, wbudowanych funkcji bez konieczności łączenia wielu modeli AI. Voxtral może wykonywać natywne pytania i podsumowania oraz podsumowuje funkcje bezpośrednio z poleceń głosowych, przekształcając zamierzony zamiar w wykonalne polecenia systemowe. Posiada również automatyczne wykrywanie języka, z najnowocześniejszymi występami w szeroko używanych językach, takich jak angielski, hiszpański, francuski, niemiecki i hindi.

W ogłoszeniu Mistral podkreślił swój cel, jakim jest wzmocnienie programistów i przyspieszenia przyszłości. Firma stwierdziła: „Upuszczamy modele Voxtral w celu przyspieszenia tej przyszłości. Te modele zrozumienia mowy stanowi są dostępne w dwóch rozmiarach-wariant 24B dla aplikacji w skali produkcyjnej oraz wariant 3B dla wdrożeń lokalnych i krawędzi.„

Wydajność w zatłoczonej i konkurencyjnej arenie

Wejście Mistral nie jest w wiruniu, ale Caulon, ale Caulon. Intensywna konkurencja, w której giganci technologiczni i zwinne startupy walczą o dominację w przyszłości interakcji głosowych. Aby poprzeć swoje roszczenia, Mistral wydał przekonujące informacje na temat pozycji danych Benchmark Voxtral jako lidera zarówno w zakresie wydajności, jak i opłacalności. W Benchmark Fleurs Voxtral mały i mini transkrybuj siedzą na optymalnej krawędzi krzywej ceny, dostarczając niższe wskaźniki błędów niż Google Gemini 2.5 Flash i Openai GPT-4O Mini transkrybować ułamek kosztów.

Modele pokazują szczególnie silne możliwości wieloosobowe, spoza uwzględnienia języków europejskich, takich jak języki hiszpańskie i francuskie i francuskie. Podczas gdy skryba Elevenlabs publikuje nieznacznie niższy poziom błędów w niektórych długich angielskich zadaniach, robi to ponad dwukrotnie więcej niż cena małej, wzmacniającej propozycję wartości Mistrala.

Ta premiera bezpośrednio kwestionuje bieżące postępy z Big Tech. W ostatnich miesiącach Openai rozszerzył swój zaawansowany tryb głosowy do Internetu, podczas gdy Antropic wprowadził tryb głosowy dla swojej AI Claude. Amazon dokonał również znaczącego ruchu w kwietniu dzięki ekspresyjnemu modelowi Nova Sonic w czasie rzeczywistym, który jest już zintegrowany z asystentem Alexa+. Gdy urządzenia Amazon prowadzą Panos Panay: „Kiedy używasz Alexa+, poczujesz to.”

Innowacja nie ogranicza się do gigantów. Rynek jest również kształtowany przez wyspecjalizowane startupy eksplorujące różne nisze. W maju stabilność AI nawiązała współpracę z ARM w celu wydania modelu audio wolnego od opłat licencyjnych, walcząc z obawami dotyczącymi własności intelektualnej poprzez wykorzystanie etycznych danych szkoleniowych. Dyrektor generalny Prem Akkaraju podkreślił skupienie się na wydajności, stwierdzając: „Przeszliśmy z minuty do zaledwie sekund, aby wygenerować dźwięk całkowicie na procesorze ARM na smartfonie.”

Na drugim końcu spektrum, startupy takie jak AI Sesame Ai pchają granice realizacji, tworząc „efektywnie brzmiąc ludzki” asystenci, takie jak imperfakcje, takie jak Pauss i Stautters to the Unnannients to the Unannanyns to the Unannanning do Cytenters to the Unnanyns. dolina. This philosophical quest for emotional authenticity was captured by Andreessen Horowitz’s Anjney Midha, who noted, “The emotional flatness of AI audio has been exhausting and unnatural. But if you remove the visual display from AR glasses and instead focus on an amazing audio-first AI system, you can create a computing experience that feels seamless…”

Voxtral’s release is not just a technical kamień milowy; To strategiczny ruch w eskalacji wojny talentów AI. Bitwa o Top Minds zmusiła firmy do budowy, kupowania lub kłusownictwa. Niedawne przejęcie Voice AI Startup Playai za zgłoszone 45 milionów dolarów jest doskonałym przykładem tego trendu.

W przypadku Mistral Voxtral stanowi znaczący krok. Firma ogłosiła już plany przyszłych aktualizacji, w tym segmentację głośników, wykrywanie emocji i znaczniki czasu na poziomie słów. Oferując potężną, otwartą i niedrogą alternatywę, Mistral obstawia, że może wyrzeźbić znaczącą niszę w pierwszej przyszłości.

Mistral rzuca wyzwanie Openai i Google z nowym modelem Voxtral Open-Source AI Model

Published by All Things Windows on July 15, 2025

Voxtral jest odpowiedzią Mistrala na otwartym poziomie źródłowym na zastrzeżoną AI

IT Info

Openai wchodzi w tryb kryzysowy: Dlaczego GPT-5 będzie momentem prawdy dla chatgpt-twórcy

IT Info

Apple Backs Project, aby wypełnić swoje ramy MLX z ekosystemem CUDA NVIDIA

IT Info

Jak system Windows 11 remontuje bezpieczeństwo za pomocą nowej funkcji „ochrony administratora”

Mistral rzuca wyzwanie Openai i Google z nowym modelem Voxtral Open-Source AI Model

Published by All Things Windows on July 15, 2025

Voxtral jest odpowiedzią Mistrala na otwartym poziomie źródłowym na zastrzeżoną AI

Related Posts

IT Info

Openai wchodzi w tryb kryzysowy: Dlaczego GPT-5 będzie momentem prawdy dla chatgpt-twórcy

IT Info

Apple Backs Project, aby wypełnić swoje ramy MLX z ekosystemem CUDA NVIDIA

IT Info

Jak system Windows 11 remontuje bezpieczeństwo za pomocą nowej funkcji „ochrony administratora”