Stabilność AI, we współpracy z Chip Designer ARM, ogłoszona 14 maja 2025 r., Wydanie typu open source stabilnego audio otwartego małego, kompaktowego i wydajnego modelu sztucznej inteligencji tekstowej do Audio. Ten model stereo AI jest specjalnie zoptymalizowany, aby działał całkowicie na procesorach ARM, umożliwiając generatywne możliwości audio bezpośrednio na urządzeniach takich jak smartfony bez polegania na przetwarzaniu chmur. Wydanie jest znaczące, ponieważ ma na celu demokratyzację tworzenia dźwięku dla szerszego zakresu użytkowników i aplikacji, jednocześnie zajmując się obawami dotyczącymi własności intelektualnej poprzez przeszkolenie wyłącznie w zakresie audio bez tantiem.
Nowy model, szczegółowo opisany pod względem stabilności AI Oficjalne ogłoszenie , zawiera 341 milionów parametrów i może wytwarzać do 11 sekund na smartfonie w sekundzie. Ten występ opiera się na wcześniej ogłoszone przełom z ramieniem w mobilnym kongresie światowym 2025, gdzie optymalizacje przy użyciu bibliotek arm Kleidiai w czasach redukowanych. Dyrektor generalny stabilności AI podkreślił to wcześniejsze osiągnięcie, stwierdzając: „Dzięki tym optymalizacjom modelowym i ramieniem Kleidiai przenieśliśmy się z minut na zaledwie kilka sekund, aby wygenerować dźwięk całkowicie na procesorze ARM na smartfonie”. Obecne stabilne małe audio małe wykorzystują te postępy, dzięki czemu jest dostępny bez ciężkich wymagań sprzętowych, jak zauważa stabilność AI News.
Zobowiązanie firmy w podejściu etycznym jest podkreślone przez korzystanie z bezpłatnego archiwum muzycznego i odwagi do szkolenia, co jest kontrastem dla niektórych konkurencji, które są otwarte, które Suno, którzy mają Suno, którzy otworzyli Suno, którzy otworzyli Suno, które są otwarte przez Suno, które są otwarte przez Sun. Permissive licencja społeczności stabilności AI , z masy modelowych dostępnych na github , a jego artykuł badawczy opublikowano na arxiv . An ścieżka uczenia się arm Jest również dostępna, aby prowadzić deweloperów.
na dworze audio i rozważanie jest również dostępny, aby prowadzić deweloperów.
Stabilne przetwarzanie audio Open na urządzeniach oferuje prędkość i funkcje offline, kluczowy odróżnik od wielu usług generowania audio zależnych od chmury. Choć zaprojektowane przede wszystkim do krótkich próbek audio, takich jak efekty dźwiękowe lub riffy muzyczne, stabilność AI uznaje pewne ograniczenia. Model obecnie obsługuje tylko podpowiedzi angielskie i nie jest jeszcze zoptymalizowany do generowania wysoce realistycznego wokalu lub złożonych, pełnometrażowych piosenek.
, jak wskazano w dokumentacji i podano przez TechCrunch, dane szkoleniowe mają zachodnią stronniczość, potencjalnie wpływając na jego wydajność w różnych globalnych stylach muzycznych. Warunki licencyjne są skonstruowane w celu zachęcania do szerokiego adopcji: jest bezpłatny dla naukowców, hobbystów i firm zarabiających mniej niż 1 milion dolarów rocznie. Jednak większe podmioty przekraczające ten przychód będą wymagały licencja przedsiębiorstwa Od stabilności ai.