French AI Startup Mistral uruchomił we wtorek swoje pierwsze modele AI Audio Open Source, Voxtral, bezpośrednio kwestionując dominację zastrzeżonych systemów z Google i Openai. Paryżowa firma pozycjonuje swoją nową rodzinę modelową jako wysokowydajną, opłacalną alternatywę dla programistów.
Mistral twierdzi, że dostarcza najnowocześniejsze zrozumienie mowy dla mniej niż połowa ceny akcji APIS . Wydany na licencji APACHES 2.0, Voxtral ma na celu demokratyzację dostępu do wywiadu głosowego gotowego do produkcji z zaawansowaną transkrypcją i wielojęzycznym wsparciem.
Ten ruch nasila konkurencję na szybko rozwijającym się rynku konwersacji AI. Opowiada podejście open source z ogrodami w branży. Twith voxtral, programiści nie muszą już wybierać między tanim, ale wadliwym systemem otwartym lub funkcjonalnym zamkniętym. src=”data: image/svg+xml; nitro-empty-id=mty0mzo3mdc=-1; base64, phn2zyB2awv3qm94psiwidagnzuWidqz Ocigd2lkdgg9ijc1mcigagvpz2h0psi0mzgihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Voxtral jest odpowiedzią Mistrala na otwartym poziomie źródłowym na zastrzeżoną AI
Mistral pozycjonuje Voxtral jako rozwiązanie długotrwałego dylematu dewelopera. Przez lata zespoły musiały wybierać między tanimi, mowy typu open source, które często miały wysokie poziomy błędów i ograniczone zrozumienie, lub potężnymi zastrzeżonymi interfejsami API, które miały wysoką cenę i mniejszą kontrolę wdrażania. Voxtral ma na celu wypełnienie tej luki poprzez dostarczenie tego, co Mistral nazywa „prawdziwie użyteczną inteligencją mowy w produkcji” zgodnie z dopuszczalną licencją Apache 2.0.
Firma wydała rodzinę modeli w celu dostosowania do różnych potrzeb. Flagowym jest Voxtral Small, 24-miliardowy model parametrów zaprojektowany do zastosowań w skali produkcji. W celu użytku na urządzeniu lub lokalnym znajduje się Voxtral Mini, bardziej kompaktowy wariant parametrów 3-miliardowy. Wreszcie, w przypadku wrażliwych na koszty zadań o dużej objętości, Mistral oferuje Voxtral Mini transkrybność, wysoce zoptymalizowaną i usuniętą wersję skoncentrowaną wyłącznie na transkrypcji.
Dostępność ma kluczowe znaczenie dla strategii Mistrala. Zarówno małe, jak i mini modele to do pobrania na Hugging Face dla prac lokalnych i lokalnych. W przypadku integracji opartej na chmurze modele są dostępne za pomocą prostego połączenia API, a ceny zaczynają się zaledwie 0,001 USD za minutę. Firma planuje również wprowadzić Voxtral w trybie głosowym swojego czatu LE Chatbot.
Możliwości Voxtral wykraczają daleko poza podstawowy mowę do tekstu, dzięki jego podstawowi na temat Mistral Small Language Model. Ten kręgosłup LLM nadaje mu głębokie semantyczne zrozumienie treści audio. Dzięki 32 000-letnim oknie kontekstowym może przetwarzać pliki audio do 30 minut w przypadku transkrypcji i do 40 minut w celu zrozumienia zadań, takich jak zadawanie złożonych pytań na temat treści.
Ta architektura umożliwia pakiet zaawansowanych, wbudowanych funkcji bez konieczności łączenia wielu modeli AI. Voxtral może wykonywać natywne pytania i podsumowania oraz podsumowuje funkcje bezpośrednio z poleceń głosowych, przekształcając zamierzony zamiar w wykonalne polecenia systemowe. Posiada również automatyczne wykrywanie języka, z najnowocześniejszymi występami w szeroko używanych językach, takich jak angielski, hiszpański, francuski, niemiecki i hindi.
W ogłoszeniu Mistral podkreślił swój cel, jakim jest wzmocnienie programistów i przyspieszenia przyszłości. Firma stwierdziła: „Upuszczamy modele Voxtral w celu przyspieszenia tej przyszłości. Te modele zrozumienia mowy stanowi są dostępne w dwóch rozmiarach-wariant 24B dla aplikacji w skali produkcyjnej oraz wariant 3B dla wdrożeń lokalnych i krawędzi.„