La division de recherche sur l’IA de Meta a publié Omnilingual ASR, un puissant système de reconnaissance vocale open source prenant en charge plus de 1 600 langues.

Le projet vise à créer un outil de transcription universel, fournissant pour la première fois la prise en charge de l’IA pour 500 langues. Développés par l’équipe Fundamental AI Research (FAIR) de Meta, les modèles sont disponibles sous une licence permissive à des fins de recherche et d’utilisation commerciale.

L’initiative vise à réduire la fracture numérique en rendant accessible une technologie de synthèse vocale de haute qualité aux communautés linguistiques sous-représentées à l’échelle mondiale. La suite comprend différentes tailles de modèles, des versions légères pour appareils mobiles aux modèles à grande échelle pour une précision maximale.

Un bond en avant dans la couverture linguistique

L’échelle omnilingue ASR représente une étape importante pour la technologie vocale. Sa prise en charge de plus de 1 600 langues élargit considérablement l’accès mondial, en particulier par rapport aux principaux systèmes propriétaires tels que Whisper d’OpenAI, qui couvre environ 100 langues.

Pour des centaines de communautés linguistiques, c’est la première fois que leurs paroles peuvent être transcrites par un système d’IA, ouvrant de nouvelles possibilités de communication, d’éducation et de préservation numérique.

Pour atteindre cette ampleur, l’équipe FAIR de Meta a intégré des ensembles de données accessibles au public. avec des enregistrements communautaires collectés grâce à des partenariats avec des organisations telles que Common Voice de Mozilla.

Cet effort de collaboration s’est avéré crucial pour atteindre des langues avec peu ou pas d’empreinte numérique existante. Dans le but de stimuler l’innovation, Meta publie également le Corpus ASR omnilingue, une collection unique de discours transcrits dans 350 langues mal desservies, sous licence CC-BY. Cet ensemble de données en lui-même constitue une contribution majeure à la communauté mondiale de la recherche.

L’annonce de Meta met en évidence les solides performances du système dans ce vaste paysage linguistique. Le modèle phare de 7 milliards de paramètres, LLM-ASR, atteint un taux d’erreur de caractère (CER) inférieur à 10 pour 78 % des langues prises en charge.

Ce niveau de précision en fait un outil pratique pour un large éventail d’applications, allant au-delà des cas d’utilisation expérimentaux vers un déploiement réel.

Extension de la communauté de puissance de l’architecture Open Source et LLM

Contrairement aux systèmes ASR traditionnels qui nécessitent des réglages approfondis, Omnilingual ASR introduit une nouvelle fonctionnalité « Apportez votre propre langue ». Cette fonctionnalité, inspirée de grands modèles linguistiques, permet aux utilisateurs d’ajouter la prise en charge de langues entièrement nouvelles en fournissant seulement une poignée d’échantillons audio et texte appariés.

Une telle approche d’apprentissage en contexte élimine le besoin d’ensembles de données massifs ou d’expertise spécialisée, permettant aux communautés d’adapter la technologie à leurs propres besoins.

Cette flexibilité est ancrée dans l’architecture avancée du système. Il associe un encodeur vocal 7B wav2vec 2.0 à grande échelle, qui apprend des représentations riches à partir de l’audio brut, avec un décodeur basé sur un transformateur similaire à ceux utilisés dans les LLM.

Cette conception permet au modèle de se généraliser à de nouvelles langues à partir de quelques exemples. En publiant ses modèles sous la licence Apache 2.0, Meta permet aux développeurs et aux entreprises de s’appuyer librement sur cette technologie et de l’intégrer dans des produits commerciaux.

L’ensemble du projet est construit sur le framework fairseq2 open source de FAIR, garantissant une intégration profonde avec l’écosystème PyTorch.

Le paysage concurrentiel et l’impact futur

La sortie de Meta remodèle stratégiquement le domaine de la reconnaissance vocale open source. Plus tôt dans l’année, le modèle Parakeet de Nvidia s’était imposé dans les classements publics avec une rapidité et une précision impressionnantes sur les tests de référence en anglais.

Cependant, l’ASR omnilingue déplace l’accent des performances monolingues vers une échelle et une accessibilité multilingues massives. Son modèle d’expansion axé sur la communauté présente un paradigme différent des systèmes plus statiques et mis à jour de manière centralisée qui ont dominé l’espace.

L’impact potentiel pour les développeurs et diverses industries est substantiel. La licence permissive ouvre la porte à de nouvelles applications commerciales dans les domaines du service client mondial, de l’analyse de contenu multimédia et des outils d’accessibilité pour les populations mal desservies.

Dans des domaines tels que l’éducation et la linguistique, la technologie pourrait être utilisée pour créer des outils d’apprentissage et préserver les langues en danger.

En fournissant une famille polyvalente de modèles, d’une version légère 300M à la puissante variante 7B, Meta équipe la communauté d’outils adaptés à divers cas d’utilisation, des applications sur appareil aux recherche de haute précision. Cette sortie constitue une étape importante vers un système de transcription véritablement universel.

Categories: IT Info