Cohere for AI, la división de investigación de la empresa canadiense Cohere, ha presentado Aya 23, una nueva serie de modelos de lenguaje multilingüe. Estos nuevos modelos, disponibles en versiones de 8 mil millones y 35 mil millones de parámetros, tienen como objetivo mejorar la comprensión y la generación del lenguaje humano en una gama diversa. de idiomas. Ahora se puede acceder a los pesos abiertos de los modelos, lo que permite a los investigadores adaptarlos a sus necesidades específicas.
Capacidades multilingües y conjunto de datos
Los modelos Aya 23 amplían el soporte a 23 idiomas, incluidos árabe, chino, francés, alemán y japonés, entre otros. Esta amplia gama lingüística marca una desviación de los modelos anteriores que se centraban principalmente en el inglés. Los modelos se desarrollaron utilizando la Colección Aya, un conjunto de datos que comprende 513 millones de instancias de indicaciones y respuestas, lo cual fue crucial para ajustar los modelos para obtener respuestas de alta calidad en varios idiomas.
La creación de Aya 23 Incluyó contribuciones de más de 3.000 investigadores independientes en 119 países, lo que subraya la naturaleza colaborativa del proyecto. Esta amplia participación ayudó a garantizar que los modelos sean sólidos y versátiles, capaces de manejar una amplia gama de contextos y matices lingüísticos.
Rendimiento y especificaciones técnicas
Las evaluaciones técnicas revelan que la variante de 35 mil millones de parámetros de Aya 23, conocida como Aya-23-35B, sobresale tanto en tareas discriminativas como generativas. Ha mostrado mejoras de hasta un 14 % en tareas discriminativas y un 20 % en tareas generativas en comparación con su predecesor, Aya 101. Además, logró un aumento del 41,6 % en el rendimiento de MMLU multilingüe.
Aya-23-35B emplea una arquitectura Transformer solo decodificadora, que mejora la capacidad del modelo para generar resultados precisos mediante el análisis del contexto de las palabras en las indicaciones del usuario. Este modelo también incorpora atención de consultas agrupadas para optimizar el uso de RAM y mejorar la velocidad de inferencia. Además, las incrustaciones posicionales rotacionales se utilizan para procesar mejor la información posicional de las palabras dentro de una oración, mejorando así la calidad del resultado.
Accesibilidad y licencias
El formato abierto Los pesos de los modelos Aya 23 están disponibles en Hugging Face bajo la Licencia pública internacional Creative Commons Atribución-No comercial 4.0. Esta elección de licencia garantiza que la comunidad de investigación en general pueda participar y aprovechar el trabajo de Cohere for AI. Además, los modelos se pueden explorar a través de Cohere Playground, que ofrece acceso gratuito a estos modelos multilingües avanzados.
Cohere Inc., con sede en Toronto, ha recaudado más de 400 millones de dólares de inversores como Nvidia Corp. y Oracle Corp. La empresa se especializa en modelos de lenguaje grandes diseñados para aplicaciones empresariales. Además de la serie Aya, Cohere también ofrece una red neuronal llamada Embed, que transforma datos en estructuras matemáticas que son más comprensibles para los modelos de lenguaje.
Antes de Aya 23, Cohere lanzó Aya-101, un modelo capaz de comprender 101 idiomas. Sin embargo, el nuevo Aya-23-35B ha demostrado un rendimiento superior en evaluaciones internas y tareas de procesamiento de textos multilingües en comparación con otros modelos de lenguajes grandes (LLM) de código abierto.