Stabilité AI, en partenariat avec Chip Designer ARM, a annoncé le 14 mai 2025, la version open-source de STABLE Audio Open Small, un modèle d’intelligence artificielle de texte compacte et efficace. Ce modèle stéréo AI est spécifiquement optimisé pour exécuter entièrement sur des processeurs ARM, permettant des capacités audio génératives directement sur des appareils comme les smartphones sans s’appuyer sur le traitement du cloud. La version est importante car elle vise à démocratiser la création de l’audio pour un plus large éventail d’utilisateurs et d’applications, tout en répondant notamment sur les préoccupations de la propriété intellectuelle en étant formé exclusivement sur l’audio libre de droits.

Le nouveau modèle, détaillé dans la stabilité AI annonce officielle , comporte 341 millions de paramètres et peut produire jusqu’à 11 secondes de l’audio sur un smartphone. Cette performance s’appuie sur un a annoncé précédemment la percée avec un bras mobile au Congrès mondial 2025, où les optimisations à l’aide de bibliothèques arml kleidiai ont diminué les moments de génération réduits. Akkaraju, PDG de Stability AI, a souligné cette réalisation antérieure, déclarant «grâce à ces optimisations de modèle et à ARM Kleidiai, nous avons passé de quelques minutes à quelques secondes pour générer entièrement audio sur le processeur du bras sur le smartphone.» L’audio stable actuel ouvert de petits leviers de ces progrès, ce qui le rend accessible sans exigences matérielles lourdes, comme stabilité AI News Notes.

L’engagement de la société pour une approche éthique est sous Formation, un contraste avec certains concurrents comme Suno, qui ont été examinés par un examen par rapport à l’utilisation du contenu protégé par des droits d’auteur.

Les développeurs peuvent accéder à un audio stable ouvert petit sous le permissive Stability Community Licence , avec le modèle Dossts Disponible sur , avec le modèle Disponible sur ,, avec le modèle Dispose sur le modèle disponible sur href=”https://huggingface.co/stabilityai/stable-audio-open-small”Target=”_ Blank”> Hugging Face , Code sur github , et ses recherches publiés sur github , et ses recherches publiés sur arXiv . Un ARM Learning Path est également disponible pour guider les développeurs.

ON-Device Audio: capablities et considérations.

Le traitement à la disque de STRABLE Open Small offre des fonctionnalités de vitesse et de hors ligne, un différenciateur clé de nombreux services de génération d’audio dépendants du cloud. Bien que principalement conçu pour des échantillons audio courts comme les effets sonores ou les riffs musicaux, la stabilité AI reconnaît certaines limites. Le modèle ne prend actuellement en charge que les invites en anglais et n’est pas encore optimisée pour générer des voix très réalistes ou des chansons complexes et complètes.

De plus, comme indiqué dans sa documentation et rapporté par TechCrunch, les données de formation ont un biais occidental, ce qui a un impact potentiellement sur ses performances à travers divers styles de musique mondiaux. Les termes de licence sont structurés pour encourager une large adoption: il est gratuit pour les chercheurs, les amateurs et les entreprises gagnant moins d’un million de dollars par an. Cependant, les entités plus grandes dépassant ces revenus auront besoin d’un Licence d’entreprise De stabilité AI.

Navigation du paysage audio et de l’IP de l’AI est une décision stratégique dans une industrie de plus en plus axée sur les droits de propriété intellectuelle. Cela contraste avec d’autres outils audio d’IA, dont certains ont été confrontés à une action en justice des maisons de disques pour avoir prétendument utilisé de la musique protégée par des droits d’auteur sans autorisation appropriée. En utilisant des données licenciées ouvertement, la stabilité de l’IA vise à fournir une base plus juridique pour les créateurs.

Le champ audio IA plus large est dynamique, des sociétés comme ElevenLabs ayant lancé des outils pour des effets solides en juin 2024, mettant l’accent sur des données d’origine éthique par le biais de partenariats. NVIDIA a également présenté son modèle avancé audio Fugatto en novembre 2024, bien qu’il n’ait pas été publié publiquement en raison de préoccupations concernant une mauvaise utilisation potentielle, reflétant une approche prudente des technologies génératives puissantes. Plus récemment, Google a présenté son modèle de Text-to-AI Lyria en avril, principalement pour ses clients d’entreprise, cependant, comme l’a noté Winbuzzer, les détails sur l’évolution de ses données de formation n’ont pas été spécifiés. Le lancement initial de son plate-forme audio stable En septembre 2023. Cette itération antérieure, développée avec des données de Audiosparx , axé sur la génération basée sur le cloud. Cette nouvelle «petite» version, cependant, priorise clairement l’efficacité et le déploiement sur les appareils, s’alignant avec la tendance de l’industrie vers Edge AI.

Ce lancement est venu de stabilité AI, connue pour sa diffusion stable du générateur d’images populaire, continue de naviguer sur un marché compétitif. L’entreprise a connu des changements de restructuration financière et des changements de leadership, après avoir collecté de nouveaux espèces l’an dernier.

L’introduction d’un modèle sur le disque éthiquement formé comme stable audio ouvert petit, d’autres versions récentes du modèle de génération d’images, signale un effort stratégique pour innover et solidifier sa position de marché. La combinaison de l’accessibilité, des performances à disque et une fondation de données libre de droits pourrait rendre audio stable ouvert Small une option attrayante pour les développeurs et les créateurs.

Categories: IT Info