Cohere for AI, la division de recherche de la société canadienne Cohere, a dévoilé Aya 23, une nouvelle série de modèles linguistiques multilingues. Ces nouveaux modèles, disponibles en versions de 8 milliards et 35 milliards de paramètres, visent à améliorer la compréhension et la génération du langage humain dans une gamme diversifiée. de langues. Les pondérations ouvertes des modèles sont désormais accessibles, permettant aux chercheurs de les adapter à leurs besoins spécifiques.
Capacités et ensembles de données multilingues
Les modèles Aya 23 étendent la prise en charge à 23 langues, dont l’arabe, le chinois, le français, l’allemand et le japonais, entre autres. Cette large gamme linguistique marque une rupture avec les modèles antérieurs principalement axés sur l’anglais. Les modèles ont été développés à l’aide de la collection Aya, un ensemble de données comprenant 513 millions d’instances d’invites et de complétions, ce qui a été crucial pour affiner les modèles pour des réponses de haute qualité dans différentes langues.
La création d’Aya 23 impliquait les contributions de plus de 3 000 chercheurs indépendants dans 119 pays, soulignant la nature collaborative du projet. Cette large participation a permis de garantir que les modèles sont robustes et polyvalents, capables de gérer un large éventail de nuances et de contextes linguistiques.
Performances et spécifications techniques
Les évaluations techniques révèlent que la variante à 35 milliards de paramètres d’Aya 23, connue comme Aya-23-35B, excelle dans les tâches discriminatives et génératives. Il a montré des améliorations allant jusqu’à 14 % sur les tâches discriminatives et 20 % sur les tâches génératives par rapport à son prédécesseur, Aya 101. De plus, il a obtenu une augmentation de 41,6 % des performances MMLU multilingues.
Aya-23-35B utilise une architecture Transformer uniquement par décodeur, qui améliore la capacité du modèle à générer des sorties précises en analysant le contexte des mots dans les invites utilisateur. Ce modèle intègre également une attention aux requêtes groupées pour optimiser l’utilisation de la RAM et améliorer la vitesse d’inférence. De plus, les intégrations positionnelles rotationnelles sont utilisées pour mieux traiter les informations de position des mots dans une phrase, améliorant ainsi la qualité du résultat.
Accessibilité et licences
Le système ouvert Les poids des modèles Aya 23 sont disponibles sur Hugging Face sous la licence publique internationale Creative Commons Attribution-NonCommercial 4.0. Ce choix de licence garantit que la communauté de recherche au sens large peut s’engager et s’appuyer sur les travaux de Cohere for AI. De plus, les modèles peuvent être explorés via Cohere Playground, qui offre un accès gratuit à ces modèles multilingues avancés.
Cohere Inc., dont le siège social est à Toronto, a levé plus de 400 millions de dollars auprès d’investisseurs tels que Nvidia Corp. et Oracle Corp. La société est spécialisée dans les grands modèles de langage conçus pour les applications d’entreprise. Outre la série Aya, Cohere propose également un réseau neuronal appelé Embed, qui transforme les données en structures mathématiques plus compréhensibles pour les modèles de langage.
Avant Aya 23, Cohere a publié Aya-101, un modèle capable de comprendre 101 langues. Cependant, le nouvel Aya-23-35B a démontré des performances supérieures dans les évaluations internes et les tâches de traitement de texte multilingue par rapport à d’autres grands modèles de langage (LLM) open source.