La startup de l’IA française Mistral a lancé mardi ses premiers modèles de l’IA audio open source, voxtral, contestant directement la domination des systèmes propriétaires de Google et Openai. L’entreprise basée à Paris positionne sa nouvelle famille de modèles comme une alternative haute performance et rentable pour les développeurs.
Mistral affirme qu’il offre une compréhension de la parole d’état-Or-Art pour moins que le prix de l’API concurrent . Libéré sous une licence APACHE 2.0 permissive, Voxtral vise à démocratiser l’accès à l’intelligence vocale prête à la production avec une transcription avancée et un soutien multilingue.
Cette décision intensifie la concurrence sur le marché en croissance rapide de l’IA conversationnelle. Il défend une approche open source contre les jardins clos de l’industrie. Twith Voxtral, les développeurs n’ont plus à choisir entre un système ouvert bon marché mais défectueux ou un fonctionnement fonctionnel fermé.
Voxtral est la réponse open source de Mistral à la voix propriétaire Ai
Mistral est de positionner Voxtral comme solution à un dilemme de longue date du développeur. Pendant des années, les équipes ont dû choisir entre des systèmes vocaux open source bon marché qui avaient souvent des taux d’erreur élevés et une compréhension limitée, ou de puissantes API propriétaires qui sont venues avec un prix élevé et un contrôle moins élevé de déploiement. Voxtral vise à combler cet écart en fournissant ce que Mistral appelle”une intelligence vocale vraiment utilisable en production”sous une licence Apache 2.0 permissive.
La société a publié une famille de modèles pour répondre à différents besoins. Le phare est Voxtral Small, un modèle de paramètres de 24 milliards conçu pour les applications à l’échelle de la production. Pour une utilisation sur l’appareil ou local, il y a Voxtral Mini, une variante de paramètres plus compacte de 3 milliards. Enfin, pour les tâches sensibles aux coûts et à haut volume, Mistral propose Voxtral Mini Transcribe, une version hautement optimisée et dépouillée axée uniquement sur la transcription.
L’accessibilité est au cœur de la stratégie de Mistral. Les modèles Small et Mini sont Disponible en téléchargement sur un visage étreint Pour les charges de travail locales et sur prémisse. Pour l’intégration basée sur le cloud, les modèles sont accessibles via un simple appel API, avec des prix commençant à seulement 0,001 $ par minute. La société prévoit également de déployer Voxtral en mode vocal de son chat de chat le chat.
Les capacités de Voxtral s’étendent bien au-delà de la parole de base, grâce à sa fondation sur le modèle de langue Mistral Small 3.1. Cette épine dorsale LLM lui donne une compréhension sémantique profonde du contenu audio. Avec une fenêtre de contexte de 32 000 tonnes, il peut traiter des fichiers audio jusqu’à 30 minutes pour la transcription et jusqu’à 40 minutes pour comprendre les tâches, telles que poser des questions complexes sur le contenu.
Cette architecture permet une suite de fonctionnalités intégrées avancées sans avoir besoin de répercuter plusieurs modèles AI. Voxtral peut effectuer des questions et résumés natives, et elle prend en charge les fonctions de fonction directement à partir des commandes vocales, transformant l’intention parlée en commandes système exploitables. Il présente également une détection automatique des langues, avec des performances de pointe dans des langues largement utilisées comme l’anglais, l’espagnol, le français, l’allemand et l’hindi
Dans son annonce, Mistral a souligné son objectif d’autonomisation des développeurs et d’accélérer un avenir vocal. La société a déclaré: «Nous publions les modèles Voxtral pour accélérer cet avenir. Ces modèles de compréhension de la parole de l’état sont disponibles en deux tailles-une variante 24B pour les applications à l’échelle de production et une variante 3B pour les déploiements locaux et Edge.”Une concurrence intense, où les géants technologiques et les startups agiles se disputent tous la domination dans l’avenir de l’interaction vocale. Pour soutenir ses affirmations, Mistral a libéré le positionnement des données de référence convaincante Voxtral en tant que leader dans les performances et la rentabilité. Sur la référence des Flors, Voxtral Small et Mini Transcribe reposent sur le bord optimal de la courbe de prix-performance, offrant des taux d’erreur plus bas que le GEMINI 2.5 Flash de Google et le GPT-4O d’Openai transcrivent pour une fraction des coûts.
Les modèles démontrent particulièrement les capacités multilingues, les capacités françaises, les espagnols. Alors que le scribe d’ElevenLabs affiche un taux d’erreur légèrement inférieur sur certaines tâches anglaises longues, il le fait à plus du double du prix de Voxtral Small, renforçant la proposition de valeur de Mistral.
Ce lancement remet en question directement les progrès en cours de Big Tech. Ces derniers mois, OpenAI a élargi son mode vocal avancé au Web, tandis qu’Anthropic a déployé un mode vocal conversationnel pour son Claude AI. Amazon a également fait une décision significative en avril avec son modèle expressif Nova Sonic en temps réel, qui est déjà intégré à son assistant Alexa +. Comme les appareils d’Amazon, Panos, Panos, Panay l’a promis,”Lorsque vous utilisez Alexa +, vous allez le ressentir.”
L’innovation ne se limite pas aux Giants. Le marché est également façonné par des startups spécialisées explorant différentes niches. En mai, la stabilité de l’IA s’est associée à ARM pour publier un modèle audio libre sur les dispositions, abordant les préoccupations de la propriété intellectuelle en utilisant des données de formation d’origine éthique. Le PDG Prem Akkaraju a mis en évidence l’accent mis sur l’efficacité, déclarant:”Nous avons passé de quelques minutes à quelques secondes pour générer entièrement audio sur le CPU du bras sur le smartphone.”
À l’autre extrémité du spectre, les startups comme Sesame AI poussent les limites du réalisme, créant des «mèches en matière de sutume pour les« suturières », les« exondées exondées en vigueur qui embrassent les impérections comme les impéréctions comme les impéréctions comme impéroniciens et les mèches exceptionnelles »qui ont des« pysouches exceptionnelles »qui embrassent les impérections comme les impéréctions comme les impéréctions comme les impéréctions comme impéréctions et les mressions exceptionnelles”qui ont un contre-intercannois”. vallée. Cette quête philosophique d’authenticité émotionnelle a été capturée par Anjney Midha d’Andreessen Horowitz, qui a noté: «La planéité émotionnelle de l’audio AI a été épuisante et non naturelle. Mais si vous supprimez l’affichage visuel de AR Glasses et se concentre plutôt sur un système audio-primitif incroyable, vous pouvez créer une expérience de calcul qui ne se sent pas. C’est une décision stratégique dans l’escalade de la guerre des talents d’IA. La bataille pour Top Minds a forcé les entreprises à construire, acheter ou braconner. La récente acquisition de META de la startup VOCIE AI Playai pour 45 millions de dollars a été rapportée est un excellent exemple de cette tendance.
pour Mistral, Voxtral représente une étape significative. La société a déjà annoncé des plans de mises à jour futures, notamment la segmentation des conférenciers, la détection des émotions et les horodatages au niveau des mots. En offrant une alternative puissante, ouverte et abordable, Mistral parie qu’il peut se tailler un créneau important dans l’avenir de la voix.