La startup francesa de IA Mistral lanzó sus primeros modelos de IA de audio de código abierto, Voxtral, el martes, desafiando directamente el dominio de los sistemas patentados de Google y OpenAI. La compañía con sede en París está posicionando a su nueva familia modelo como una alternativa de alto rendimiento y efectivo para los desarrolladores.
afirma que ofrece comprensión del habla de estado de arte para menos que la mitad del precio de la competencia . Lanzado bajo una licencia permisiva de Apache 2.0, Voxtral tiene como objetivo democratizar el acceso a la inteligencia de voz lista para la producción con transcripción avanzada y soporte multilingüe.
Este movimiento intensifica la competencia en el mercado de rápido crecimiento para la IA conversacional. Defiende un enfoque de código abierto contra los jardines amurallados de la industria. Twith Voxtral, los desarrolladores ya no tienen que elegir entre un sistema abierto barato pero defectuoso o un cerrado funcional.
>
voxtral es la respuesta de código abierto de Mistral a la voz patentada ai
Mistral está posicionando Voxtral como la solución a un dilema de desarrollador de larga data. Durante años, los equipos tuvieron que elegir entre sistemas de habla baratos y de código abierto que a menudo tenían altas tasas de error y una comprensión limitada, o potentes API patentadas que venían con un alto precio y menos control de implementación. Voxtral tiene como objetivo cerrar esta brecha entregando lo que Mistral llama”inteligencia del habla verdaderamente utilizable en producción”bajo una licencia permisiva de Apache 2.0.
La compañía ha lanzado una familia de modelos para satisfacer diferentes necesidades. El buque insignia es Voxtral Small, un modelo de parámetros de 24 mil millones diseñado para aplicaciones a escala de producción. Para uso en el dispositivo o local, existe Voxtral Mini, una variante de parámetros de 3 mil millones más compacta. Finalmente, para las tareas de alto volumen sensible a los costos, Mistral ofrece Voxtral Mini Transcribe, una versión altamente optimizada y despojada enfocada exclusivamente en la transcripción.
La accesibilidad es fundamental para la estrategia de Mistral. Tanto los modelos pequeños como los mini son Disponible para descargar en abrazos de abrazo Para cargas de trabajo locales y locas. Para la integración basada en la nube, se puede acceder a los modelos a través de una llamada API simple, con precios que comienzan en solo $ 0.001 por minuto. La compañía también planea implementar Voxtral en el modo de voz de su chat de chat. Esta columna vertebral LLM le da una profunda comprensión semántica del contenido de audio. Con una ventana de contexto de 32,000 token, puede procesar archivos de audio hasta 30 minutos para la transcripción y hasta 40 minutos para comprender tareas, como hacer preguntas complejas sobre el contenido.
Esta arquitectura permite un conjunto de características avanzadas y incorporadas sin necesidad de encadenar múltiples modelos de IA juntos. Voxtral puede realizar preguntas y respuestas nativas y resumen, y admite la llamada de funciones directamente desde los comandos de voz, convirtiendo la intención hablada en comandos del sistema accionables. También presenta una detección automática de idiomas, con un rendimiento de última generación en idiomas ampliamente utilizados como inglés, español, francés, alemán e hindi. La compañía declaró:”Lanzamos los modelos Voxtral para acelerar este futuro. Estos modelos de comprensión de voz de estado de arte están disponibles en dos tamaños: una variante de 24B para aplicaciones a escala de producción y una variante 3B para las implementaciones locales y de borde”.