Stabilność AI, we współpracy z Chip Designer ARM, ogłoszona 14 maja 2025 r., Wydanie typu open source stabilnego audio otwartego małego, kompaktowego i wydajnego modelu sztucznej inteligencji tekstowej do Audio. Ten model stereo AI jest specjalnie zoptymalizowany, aby działał całkowicie na procesorach ARM, umożliwiając generatywne możliwości audio bezpośrednio na urządzeniach takich jak smartfony bez polegania na przetwarzaniu chmur. Wydanie jest znaczące, ponieważ ma na celu demokratyzację tworzenia dźwięku dla szerszego zakresu użytkowników i aplikacji, jednocześnie zajmując się obawami dotyczącymi własności intelektualnej poprzez przeszkolenie wyłącznie w zakresie audio bez tantiem.

Nowy model, szczegółowo opisany pod względem stabilności AI Oficjalne ogłoszenie , zawiera 341 milionów parametrów i może wytwarzać do 11 sekund na smartfonie w sekundzie. Ten występ opiera się na wcześniej ogłoszone przełom z ramieniem w mobilnym kongresie światowym 2025, gdzie optymalizacje przy użyciu bibliotek arm Kleidiai w czasach redukowanych. Dyrektor generalny stabilności AI podkreślił to wcześniejsze osiągnięcie, stwierdzając: „Dzięki tym optymalizacjom modelowym i ramieniem Kleidiai przenieśliśmy się z minut na zaledwie kilka sekund, aby wygenerować dźwięk całkowicie na procesorze ARM na smartfonie”. Obecne stabilne małe audio małe wykorzystują te postępy, dzięki czemu jest dostępny bez ciężkich wymagań sprzętowych, jak zauważa stabilność AI News.

Zobowiązanie firmy w podejściu etycznym jest podkreślone przez korzystanie z bezpłatnego archiwum muzycznego i odwagi do szkolenia, co jest kontrastem dla niektórych konkurencji, które są otwarte, które Suno, którzy mają Suno, którzy otworzyli Suno, którzy otworzyli Suno, które są otwarte przez Suno, które są otwarte przez Sun. Permissive licencja społeczności stabilności AI , z masy modelowych dostępnych na github , a jego artykuł badawczy opublikowano na arxiv . An ścieżka uczenia się arm Jest również dostępna, aby prowadzić deweloperów.

na dworze audio i rozważanie jest również dostępny, aby prowadzić deweloperów.

Stabilne przetwarzanie audio Open na urządzeniach oferuje prędkość i funkcje offline, kluczowy odróżnik od wielu usług generowania audio zależnych od chmury. Choć zaprojektowane przede wszystkim do krótkich próbek audio, takich jak efekty dźwiękowe lub riffy muzyczne, stabilność AI uznaje pewne ograniczenia. Model obecnie obsługuje tylko podpowiedzi angielskie i nie jest jeszcze zoptymalizowany do generowania wysoce realistycznego wokalu lub złożonych, pełnometrażowych piosenek.

, jak wskazano w dokumentacji i podano przez TechCrunch, dane szkoleniowe mają zachodnią stronniczość, potencjalnie wpływając na jego wydajność w różnych globalnych stylach muzycznych. Warunki licencyjne są skonstruowane w celu zachęcania do szerokiego adopcji: jest bezpłatny dla naukowców, hobbystów i firm zarabiających mniej niż 1 milion dolarów rocznie. Jednak większe podmioty przekraczające ten przychód będą wymagały licencja przedsiębiorstwa Od stabilności ai.

Prowadzenie krajobrazu ai audio i IP. Strategiczny ruch w branży coraz bardziej koncentruje się na prawach własności intelektualnej. Kontrastuje to z innymi narzędziami audio AI, z których niektóre stanęły w obliczu działań prawnych z etykiet płytowych w celu rzekomego korzystania z muzyki chronionej bez właściwego autoryzacji. Korzystając z otwarcie licencjonowanych danych, stabilność AI ma na celu zapewnienie twórców bardziej legalnie uzasadnionej podstawy.

Szersze pole audio AI jest dynamiczne, a firmy takie jak Elevenlab uruchomiły narzędzia do efektów dźwiękowych w czerwcu 2024 r., Kł. Kł. Etycznie pozyskiwane dane poprzez partnerstwa. NVIDIA przedstawiła również swój zaawansowany model audio Fugatto w listopadzie 2024 r., Chociaż nie został publicznie wydany z powodu obaw o potencjalne niewłaściwe użycie, odzwierciedlając ostrożne podejście do potężnych technologii generatywnych. Niedawno Google wprowadził swój model AI Lyria tekst do muzyki w kwietniu, przede wszystkim ze względu na swoich klientów korprystycznych, jak zauważył Winbuzzer, szczegóły dotyczące swoich zestawów danych szkoleniowych nie zostały określone.

stabilność ewolucji AI w generacji audio

wydania stabilnego audycji otwartej małej ewolucji stabilności AI w pracy aura, auru aura. Początkowe uruchomienie jego stabilna platforma audio we wrześniu 2023 r. Ta wcześniejsza iteracja, opracowana z danymi z audiosparx , skupiony na generacji chmur. Ta nowa „mała” wersja wyraźnie priorytetowo traktuje wydajność i wdrożenie na urządzeniu, dostosowując się do trendu branżowego w kierunku Edge Ai.

To uruchomienie jest stabilność AI, znana ze stabilnej dyfuzji generatora obrazu, nadal porusza rynek konkurencyjny. Firma doświadczyła zmian w zakresie restrukturyzacji finansowej i przywództwa, ponieważ w zeszłym roku zebrała nową gotówkę.

Wprowadzenie etycznie wyszkolonego modelu na urządzeniu, takim jak stabilny audio otwarty mały, inne wydania modelu generowania obrazów, sygnalizuje strategiczne wysiłki na rzecz wprowadzania innowacji i utrwalania pozycji rynkowej. Połączenie dostępności, wydajności na urządzeniu i fundacji danych bez opłat licencyjnych może sprawić, że stabilna audio otwarta jest atrakcyjną opcją dla programistów i twórców.

Categories: IT Info