Zespół naukowców z HKUST i M-A-P wydał Yue, rodzinę modeli AI open source zdolnych do generowania pełnometrażowych, pięciominutowych piosenek z Just Tekst. Ogłoszone za pośrednictwem Papier techniczny na temat arxiv href=”https://github.com/multimodal-art-projection/yue”target=”_ puste”> licencja Apache 2.0 . Ten ruch ma na celu wspieranie przejrzystości innowacji w tworzeniu muzyki sztucznej inteligencji, oferując potężną, prawnie dostępną alternatywę dla artystów i programistów.
Pod maską: jak Yue generuje piosenki pełnometrażowe
zbudowaną na architekturze LAME 2 i wyszkolona na trylonach Tokens, Yue do utrzymania Coherence przez kilka minut. Naukowcy przypisują to kilku innowacjom architektonicznym szczegółowo opisanym w ich papier .
Jedną z kluczowych technik jest „Track-decoupled następnej prognozy”. Pozwala to modelowi przetwarzać wokal i akompaniament jako oddzielne, równoległe strumienie. Zapobiega to gęstym sekcjom instrumentalnym, powszechnym w gatunkach takich jak metal, od przytłaczania i zniekształcania ścieżki wokalnej, zapewniając liryczną przejrzystość.
Aby utrzymać długoterminową spójność, Yue stosuje „konstrukcję progresywną”. Rozbijając piosenkę na logiczne segmenty, takie jak [werset] i [refren], model koncentruje się na utrzymywaniu spójności melodycznej w każdej sekcji przed przejściem do następnej, zapobieganie degradacji jakości w długich sekwencjach.
Model pokazuje również wyrafinowaną uczenie się w kontekście (ICL). Użytkownicy mogą dostarczyć krótki klip dźwiękowy, który poprowadził styl, umożliwiając klonowanie głosu o wysokiej wierności i transfer w stylu gatunku. oficjalna strona demo zawiera imponujące przykłady zaawansowanych technik wokalnych, które nie są wyraźnie przeszkolone, takie jak wybór, defint, i multi-Part A Cappella Harmonie. Debiut Field
Yue pojawia się, gdy świat AI muzyki zmaga się z fundamentalnymi pytaniami prawnymi. W czerwcu 2024 r. RIAA eskalowała konflikt, pozawiając Suno i Udio o masowe naruszenie praw autorskich. Przewodniczący i dyrektor generalny RIAA, Mitch Glazier, ostrzegł, że „nielicencjonowane usługi, takie jak Suno i Udio, które twierdzą, że„ uczciwe “jest kopiowanie dzieła życia artysty… odznacz obietnicę innowacyjnej sztucznej inteligencji dla nas wszystkich.”
Dyrektora prawnego RIAA, Kena Doroshow, opisał zapisy jako „proste przypadki COURSICE, które obejmowały innowację w Innovight Inclingeed of Inlices z Mashing w Massive of A Mashing w Massive of A Mashing of A Mashing of A Mashing w Massie. skala. ” Obie firmy broniły swojej technologii zgodnie z doktryną „dozwolonego użytku”, a dyrektor generalny Suno Mikey Shulman twierdził, że jego model był „… zaprojektowany do generowania zupełnie nowych produktów, a nie zapamiętywania i regugizacji treści wcześniej istniejących.”
Bitwa prawna pozostaje aktywna, chociaż główne wytwórnie płytowe, takie jak Universal, Sony i Warner, podobno są teraz w licencjonowaniu talentów. Wśród tej niepewności inni gracze przedstawiają bardziej ostrożny kurs. Elevenlabs Voice AI Startup uruchomił niedawno własne narzędzie, Eleven Music, oparta na strategii „pierwszej licencji”. Dyrektor generalny Mati Staniszewski podkreślił, że „model jest ściśle tworzony na danych, do których mamy dostęp.”
Wojny muzyczne AI: krajobraz pozwów i licencji
Napięcie między innowacjami a prawami własności intelektualnej określa bieżący krajobraz muzyczny AI. Przemysł pozostaje głęboko podzielony na to, jak postępować, wymuszając platformy i firmy technologiczne do dokładnego wyboru swoich strategii.
Giganci technologiczni starannie stąpią. Google’s Music AI Sandbox Znaki wszystkie swoje wyniki, aby zapewnić identyfikowalność. Nvidia zrobiła jeszcze bardziej konserwatywny krok, zaprezentując swój potężny model audio Fugatto, ale wstrzymując publiczne wydanie. Wiceprezes firmy, Bryan Catanzaro, zauważył, że „każda technologia generatywna zawsze nosi pewne ryzyko, ponieważ ludzie mogą użyć tego do generowania rzeczy, które wolą, nie.” Platformy strumieniowe streamingowe są również liniami rysującymi. Spotify potwierdził, że pozwoli to na muzykę AI, ale policja nieautoryzowana podszywa się pod głos, podczas gdy Universal Music i Deezer wcześniej ogłosili model „zorientowany na artystę”, który priorytetem jest twórców ludzkich w obliczeniach opłat licencyjnych.
Ta ostrożność odzwierciedla szerszy niepokój w społeczności kreatywnej. Podczas gdy niektórzy artyści przyjmują sztuczną inteligencję jako narzędzie do współpracy, inni obawiają się, że dewaluuje ludzki kunszt. Ten sentyment został znany przez autorkę Joannę Maciejewskę, która stwierdziła: „Chcę, żeby Al zrobił moje pranie i potrawy, aby móc wykonywać sztukę i pisanie, a nie po to, aby zrobić moją sztukę i pisać, aby móc robić moje pranie i potrawy.”
poprzez wypuszczenie Yue jako potężnego, Narzędzie open source jego twórcy składają celowe stwierdzenie. Obstawiają, że przejrzystość i rozwój społeczności, a nie spory o zamknięte drzwi, ostatecznie określi przyszłość sztucznej inteligencji w muzyce.