Shutterstock zaprezentował etyczny model licencjonowania, który ma zmienić sposób, w jaki programiści AI uzyskują dostęp do wysokiej jakości danych szkoleniowych.
Nowa licencja badawcza Shutterstock umożliwia start-upom zajmującym się sztuczną inteligencją i mniejszym programistom szkolenie systemów sztucznej inteligencji w niedrogi i odpowiedzialny sposób. Jego pierwsza aplikacja obsługuje LTXV (LTX Video), model generowania wideo w czasie rzeczywistym opracowany przez Lightricks.
Wykorzystując ogromną bibliotekę filmów HD i 4K Shutterstock, Lightricks ma na celu pokonanie barier technicznych w produkcji wideo AI, przy jednoczesnym przestrzeganiu standardów etycznych. Dzięki ogromnej bibliotece zawierającej ponad 800 milionów obrazów i 55 milionów klipów wideo Shutterstock obsługuje obecnie około 4,1 miliona aktywnych klientów
„Wiele firm i trenerów modelek poszło drogą nieautoryzowanego pozyskiwania danych [zamiast] dokonać niezbędnych inwestycji, aby osiągnąć wymaganą jakość i poziom zaufania opracować modele opłacalne komercyjnie” – powiedział Daniel Mandell, globalny szef ds. licencjonowania danych i sztucznej inteligencji w Shutterstock.
„Nie uważamy jednak, że inwestycje finansowe powinny stanowić barierę dla tych, którzy chcą wejść w tę przestrzeń z etycznym podejściem.”
Powiązane: OpenAI wypuszcza Sorę Generator wideo AI dla abonentów ChatGPT Plus i Pro
Licencja badawcza Shutterstock: dwufazowy model licencjonowania
Licencja badawcza Shutterstock wprowadza dwufazową ramy licencjonowania mające na celu rozwiązanie problemu zaporowych kosztów związanych ze szkoleniami w zakresie sztucznej inteligencji. W początkowej fazie programiści mogą eksperymentować z mniejszymi zbiorami danych w celu testowania i walidacji.
Gdy ich projekty będą gotowe do komercjalizacji, będą mogli przejść na pełne licencje komercyjne. To elastyczne podejście ma na celu obniżenie finansowych barier wejścia dla start-upów i mniejszych organizacji.
Mandell podkreślił, że celem Shutterstock było ustanowienie standardów etycznych w rozwoju sztucznej inteligencji i zapewnienie sprawiedliwego wynagrodzenia twórcom treści.
Jednym z najbardziej utrzymujących się wyzwań w generowaniu wideo AI jest utrzymanie płynnego, spójnego ruchu w klatkach, szczególnie w dłuższych klipach. Architektura LTXV została specjalnie zaprojektowana, aby rozwiązać ten problem. Trenując na różnorodnych i wysokiej jakości zbiorach danych wideo Shutterstock, LTXV osiąga poziom spójności ruchu, który odróżnia go od konkurencyjnych modeli.
„Dane Shutterstock pozwalają nam trenować modele w sposób odpowiedzialny i etyczny” – powiedział Zeev Farbman , dyrektor generalny Lightricks „To partnerstwo gwarantuje, że poszanujemy prawa twórcze, jednocześnie rozwijając możliwości techniczne naszych narzędzi.”
Powiązane: Meta przedstawia pieczęć wideo. Ramy dotyczące ukrytych znaków wodnych filmów AI
Godziwe wynagrodzenie dla autorów
Współpracownicy platformy Shutterstock korzystają z modelu podziału przychodów, otrzymując 20% wygenerowanych przychodów z umów licencyjnych danych. Ponadto twórcy treści mogą zrezygnować z wykorzystywania ich pracy do celów szkoleniowych w zakresie sztucznej inteligencji, z czego korzysta mniej niż 1% autorów Shutterstock.
Mandell przypisuje ten niski wskaźnik rezygnacji przejrzystości i uczciwości modelu licencjonowania.
Dzięki tej inicjatywie Shutterstock staje się czynnikiem promującym etyczne praktyki związane ze sztuczną inteligencją w czasach, gdy branża spotyka się z coraz większą kontrolą w zakresie pozyskiwania danych. Złożono wiele pozwów przeciwko firmom zajmującym się sztuczną inteligencją oskarżonym o wykorzystywanie materiałów chronionych prawem autorskim w swoich zbiorach danych szkoleniowych bez zezwolenia.
Powiązane: Amazon przedstawia multimodalne modele AI Nova dla tekstu, obrazu i wideo
Możliwości LTXV: generowanie wideo AI w czasie rzeczywistym
LTXV, opracowany przez Lightricks, może tworzyć filmy szybciej niż prędkość odtwarzania, generując 24 klatki na sekundę i dostarczanie filmów w wysokiej rozdzielczości w zaledwie 30 sekund na wysokiej klasy sprzęcie.
LTXV oferuje wiele trybów działania, w tym zamianę tekstu na wideo, obraz na wideo i generowanie wideo na wideo. Funkcje te pozwalają twórcom generować animacje, przekształcać istniejący materiał filmowy lub tworzyć zupełnie nowe filmy w oparciu o podpowiedzi opisowe. Elastyczność tych narzędzi sprawia, że LTXV jest dostępny zarówno dla profesjonalnych filmowców, jak i niezależnych twórców.
Innowacje techniczne
Model zbudowany jest w oparciu o architekturę Diffusion Transformer (DiT) z dwoma miliardami parametrów, co umożliwia osiągnięcie płynnych przejść pomiędzy klatkami i zachowanie spójności w dłuższych klipy.
Domyślna rozdzielczość wyjściowa LTXV to 768×512, ale można ją skalować do 720×1280 przy zachowaniu wydajności. W przeciwieństwie do wielu modeli sztucznej inteligencji, które wymagają zaawansowanej infrastruktury, LTXV może wydajnie działać na konsumenckich procesorach graficznych z zaledwie 6 GB pamięci VRAM, zwiększając jego dostępność dla mniejszych studiów i indywidualnych programistów.
Powiązane: Google Vertex AI oferuje teraz generator wideo Veo AI i model zamiany tekstu na obraz Imagen 3
Craig Andrews, globalny menedżer ds. PR w firmie Lightricks stwierdził, że spójność ruchu jest jednym z największych wyzwań technicznych w sztucznej inteligencji wideo pokolenia i wyjaśnił, że biblioteka wideo Shutterstock odegrała kluczową rolę w rozwiązaniu tego problemu.
LTXV jest wydawany na licencji Apache 2.0, udostępniając ją bezpłatnie do modyfikacji, użytkowania i redystrybucji. Ta platforma open source zachęca do współpracy między programistami i badaczami, zapewniając jednocześnie dostępność niezależnym twórcom i małym firmom. Model jest hostowany w GitHubie i Hugging Face, gdzie został już pobrany tysiące razy.
Oprócz dostępności oprogramowania typu open source, LTXV integruje się z platformami takimi jak ComfyUI, umożliwiając użytkownikom dostosowywanie i dostosowywanie jego funkcji do konkretnych potrzeb. Ten poziom elastyczności sprawia, że LTXV jest cennym narzędziem zarówno dla ekspertów technicznych, jak i kreatywnych profesjonalistów.
Powiązane: Adobe przedstawia narzędzia wideo AI w Premiere Pro, rozwija Firefly
Zdolność LTXV do generowania rozszerzonych klipów o stałej jakości sprawia, że jest on wysoce skalowalny do różnych zastosowań. Od interaktywnego handlu elektronicznego i reklamy po tworzenie gier i tworzenie treści, wszechstronność modelu otwiera przed twórcami nowe możliwości. Kompatybilność z procesorami graficznymi klasy konsumenckiej dodatkowo zwiększa jego atrakcyjność, zapewniając, że nawet małe studia mogą wykorzystać jego możliwości.
Ramy licencyjne Shutterstock stanowią zgodną z przepisami alternatywę, która przynosi korzyści zarówno programistom, jak i twórcom treści. Wykorzystując etyczne zbiory danych Shutterstock, LTXV stanowi przykład, w jaki sposób innowacje typu open source mogą dostosować się do praktyk etycznych.