Google zaprezentowało serię przełomowych aktualizacji swoich narzędzi generatywnej sztucznej inteligencji, pokazując swoje zaangażowanie w zwiększanie kreatywności za pomocą technologii. Sercem tych zapowiedzi jest Veo 2, generator wideo AI nowej generacji firmy, który może generować sygnał wyjściowy w rozdzielczości 4K.
Do Veo 2 dołącza zaktualizowany generator obrazów Imagen 3 i nowe narzędzie o nazwie Whisk, które pozwala użytkownikom remiksować efekty wizualne za pomocą podpowiedzi opartych na obrazach. Razem narzędzia te stanowią znaczący krok naprzód w realizacji ambicji Google w konkurencyjnej dziedzinie kreatywności AI, skierowanej zarówno do twórców treści, artystów, jak i przedsiębiorstw.
Veo 2: Zaawansowane generowanie wideo w rozdzielczości 4K
Veo 2: Zaawansowane generowanie wideo w rozdzielczości 4K
Veo 2 opiera się na fundamentach swojego poprzednika, Veo, wprowadzonego na rynek na początku tego roku, oferując znaczną poprawę realizmu wideo i kontroli użytkownika. Nowy model obsługuje rozdzielczość 4K, zapewniając wyraźny obraz i płynniejszy ruch, co stanowi wyraźną poprawę w stosunku do limitu 1080p w poprzedniej wersji.
Poza rozdzielczością Veo 2 wprowadza funkcje, które pozwalają użytkownikom tworzyć bardzo specyficzne kompozycje kinowe.
Podpowiedzi takie jak „użyj obiektywu 18 mm, aby uzyskać efekt szerokokątny” lub „skup się na obiekcie o małej głębi ostrości” umożliwiają precyzyjną kontrolę nad estetyką wizualną generowanych filmów.
Google opisuje model jako przeszkolony w zakresie „języka kinematografii”, umożliwiającego odtworzenie złożonych efektów wizualnych, które wcześniej były domeną profesjonalnych filmowców.
W demonstracjach Veo 2 pokazało jego zdolność do precyzyjnego radzenia sobie ze skomplikowanymi scenariuszami wizualnymi. Jeden z przykładów przedstawiał pszczelarza pracującego wśród roju pszczół miodnych, a ruch pszczół i odbicie światła na ich skrzydłach zostały odtworzone w realistyczny sposób. dokładność
[treść osadzona]
Inny klip przedstawia naukowca spoglądającego przez mikroskop, a kamera rejestruje jej intensywne skupienie i subtelne szczegóły otoczenia, takie jak oświetlenie fluorescencyjne laboratorium
Google twierdzi, że Veo 2 oferuje lepsze zrozumienie fizyki świata rzeczywistego oraz subtelności ruchu i ekspresji człowieka, mając na celu poprawę realizmu i rozwiązanie typowych problemów związanych z generowaniem wideo AI.
[treść osadzona]
Poprawa realizmu rozszerzyć się na rozwiązywanie typowych problemów generatorów wideo AI, takich jak zniekształcone postacie ludzkie, nierealistyczny ruch lub zewnętrzne artefakty wizualne. Zdolność Veo 2 do radzenia sobie z tymi wyzwaniami stawia go jako wiodące narzędzie dla kreatywnych profesjonalistów poszukujących wysokiej jakości treści wideo generowanych przez sztuczną inteligencję.
SynthID: zabezpieczenia etyczne dla treści AI
Aby rozwiać wątpliwości etyczne związane z niewłaściwym wykorzystaniem treści generowanych przez sztuczną inteligencję, Veo 2 integruje technologię znaku wodnego SynthID firmy Google. Ten niewidoczny podpis cyfrowy jest osadzany bezpośrednio w wynikach, umożliwiając identyfikację filmów generowanych przez sztuczną inteligencję bez utraty ich jakości wizualnej.
SynthID zaprojektowano tak, aby ograniczać ryzyko, takie jak dezinformacja lub złośliwa manipulacja, zapewniając odpowiedzialne korzystanie z narzędzi AI. W swoim ogłoszeniu firma Google podkreśliła, że skupiła się na zapewnieniu niezawodności i identyfikowalności wyników Veo 2, co jest wspierane przez takie funkcje, jak znak wodny SynthID.
W przeciwieństwie do widocznych znaków wodnych SynthID działa dyskretnie, co według Google czyni go bardziej praktycznym do użytku profesjonalnego przy zachowaniu przejrzystości. Jednak takie podejście rodzi również pytania dotyczące egzekwowania prawa, ponieważ opiera się na aktywnej weryfikacji treści przez użytkowników lub platformy w celu wykrycia potencjalnego nadużycia.
Wdrożenie SynthID przez Google jest zgodne z szerszymi wysiłkami branży technologicznej, w tym z inicjatywą Content Authenticity Initiative i protokołem znaku wodnego C2PA o otwartym kodzie źródłowym, których Google jest aktywnym uczestnikiem.
Veo 2 jest obecnie dostępna dla użytkowników za pośrednictwem platformy VideoFX w Google Labs, a planowane jest szersze wdrożenie na rok 2025. Firma ogłosiła również plany zintegrowania tej technologii z YouTube Shorts, umożliwiając twórcom na platformie bezpośrednie generowanie wysokiej jakości filmów opartych na sztucznej inteligencji.
Obecnie dostęp za pośrednictwem systemu list oczekujących jest ograniczony, co odzwierciedla ostrożne podejście Google do zwiększania dostępności.
Krajobraz konkurencyjny w wideo AI
Postępy Google w zakresie generowania wideo pojawiają się wraz z rosnącą konkurencją w przestrzeni sztucznej inteligencji. OpenAI niedawno uruchomiło generator wideo Sora, ale jego możliwości pozostają ograniczone do rozdzielczości 1080p i krótszych klipów o długości do 20 sekund.
[treść osadzona]
Z kolei Veo 2 obsługuje rozdzielczość do 4K i może generować dłuższe klipy o czasie trwania sięgającym kilku minut. Podczas wewnętrznych ocen Google zgłosiło, że 59% użytkowników wolało wyniki Veo 2 od wyników Sora Turbo, ulepszonej wersji narzędzia OpenAI.
Według Google 59% użytkowników biorących udział w wewnętrznych ocenach wolało Veo 2 od Sora Turbo Sora Turbo, podkreślając swoją przewagę techniczną.
Runway, kolejny ważny gracz w przestrzeni generatywnej sztucznej inteligencji, również poczynił postępy w generowaniu wideo, ale ogranicza się do Wyjście 720p. To pozycjonuje Veo 2 firmy Google jako najbardziej zaawansowane narzędzie do tworzenia profesjonalnych filmów wideo.
Strategiczne skupienie się firmy na realizmie, kontroli użytkownika i wysokiej jakości wynikach podkreśla jej zamiar zdobycia znaczącej części rosnącego rynku narzędzi kreatywnych opartych na sztucznej inteligencji.
[treści osadzone]
Obraz 3: Rozszerzanie możliwości artystycznych w generowaniu obrazów AI
Google ulepszył także Imagen 3, najnowszą wersję swojego modelu generowania obrazów AI. Aktualizacja Imagen 3 wprowadza ostrzejsze tekstury, lepszą równowagę kompozycyjną i rozszerzoną obsługę różnorodnych stylów artystycznych, od fotorealistycznych przedstawień po impresjonistyczne interpretacje.
Jedną z wyróżniających się funkcji Imagen 3 jest jego zdolność do renderowania obrazów z większą wiernością podpowiedziom użytkownika. Model generuje teraz wyniki, które dokładniej odpowiadają dostarczonym opisom, co zmniejsza niejednoznaczność, która czasami nękała wcześniejsze wersje.
Zdolność Imagen 3 do dostosowania się do różnych stylów artystycznych i scenariuszy czyni go atrakcyjnym narzędziem dla szerokiego grona użytkowników, od profesjonalnych projektantów po hobbystów badających kreatywne projekty. Model specjalizuje się w generowaniu obrazów, które równoważą artystyczną integralność z szybką przyczepnością.
W serii przykładów udostępnionych przez Google program Imagen 3 pokazał swoje możliwości poprzez uderzające wizualnie kreacje, w tym mglistą scenę na dworcu kolejowym z lat 40. XX wieku, truskawkę wyrzeźbioną w kształcie kolibra w trakcie lotu oraz makro w wysokiej rozdzielczości przedstawiające garnek ceramiczny rzeźbiony na kole.
Każdy przykład podkreśla zdolność modelu do uchwycenia drobnych szczegółów, takich jak gra światła i cienia lub skomplikowane tekstury materiałów.
Google podkreśliło, że Imagen 3 obsługuje szeroką gamę stylów artystycznych, w tym realistyczne obrazy, abstrakcyjne koncepcje i wizualizacje inspirowane anime, oferujące elastyczność pozwalającą zaspokoić różnorodne potrzeby twórcze.
Whisk: nowa definicja remiksowania wizualnego
Firma Google wprowadziła również nowe narzędzie o nazwie Whisk, które oferuje świeże podejście do kreatywności opartej na sztucznej inteligencji, umożliwiając użytkownikom łączenie wizualne podpowiedzi umożliwiające wygenerowanie nowych obrazów.
W przeciwieństwie do tradycyjnych systemów tekstowych, Whisk umożliwia użytkownikom przesyłanie obrazów w celu zdefiniowania tematu, sceny lub stylu, które następnie narzędzie przetwarza w celu stworzenia spójnych wyników. To sprawia, że jest to idealne rozwiązanie dla użytkowników, którzy chcą szybko prototypować pomysły bez polegania na obszernych opisach tekstowych.
Whisk wykorzystuje możliwości modelu Google Gemini, który analizuje przesłane obrazy i podpisuje je, aby wyodrębnić ich kluczowe cechy. Napisy te są następnie wprowadzane do Imagen 3, umożliwiając narzędziu wygenerowanie unikalnych kombinacji dostarczonych elementów wizualnych.
W jednej z demonstracji Whisk został użyty do połączenia obrazu zabytkowego motocykla z tłem w dżungli i stylem graficznym inspirowanym anime z lat 80. W rezultacie powstała spójna kompozycja wizualna, która płynnie łączyła wszystkie trzy elementy. Użytkownicy mogą jeszcze bardziej udoskonalać swoje wyniki, dostosowując monity lub modyfikując poszczególne funkcje, oferując iteracyjne podejście do twórczych poszukiwań.
[treść osadzona]
Google wyjaśnił intencje stojące za Whiskiem w swoim ogłoszeniu: „Chcieliśmy stworzyć narzędzie upraszcza to tworzenie pomysłów wizualnych, ułatwiając użytkownikom eksperymentowanie z koncepcjami i udoskonalanie ich twórczej wizji.”
Whisk reprezentuje inny wymiar wysiłków Google na rzecz zrównoważenia kreatywności z odpowiedzialnością etyczną. Umożliwiając użytkownikom łączenie podpowiedzi wizualnych, narzędzie otwiera nowe możliwości twórczych eksperymentów
Jednak poleganie na przesłanych obrazach rodzi pytania dotyczące własności intelektualnej i prywatności. Chociaż Whisk nie tworzy dokładnych replik przesłanych obrazów, wyodrębnia kluczowe funkcje do wygenerowania nowe kompozycje, które mogą w sposób niezamierzony replikować elementy wrażliwe lub chronione prawem autorskim.
Szersza dostępność na całym świecie, ale z ograniczeniami
Obraz 3 jest już dostępny na całym świecie za pośrednictwem platformy ImageFX firmy Google Labs, z wyjątkiem Niemiec. Jako przyczynę tego ograniczenia Google podał swoją zwykłą strategię etapowego wdrażania, ale analitycy branżowi wskazali na możliwy wpływ unijnej ustawy o sztucznej inteligencji.
Przepisy te nakładają na firmy obowiązek ujawniania szczegółowych informacji na temat zbiorów danych wykorzystywanych do uczenia ich modeli sztucznej inteligencji, w tym informacji o tym, czy w grę wchodzą materiały chronione prawem autorskim.
Chociaż firma Google nie potwierdziła szczegółów danych szkoleniowych Imagen 3, poprzednie raporty sugerują, że zbiory danych zawierające publicznie dostępne obrazy, prawdopodobnie obejmujące treści YouTube, przyczyniły się do rozwoju modelu.
To brak przejrzystości wzbudził obawy artystów i obrońców praw autorskich, którzy twierdzą, że wykorzystywanie publicznie dostępnych obrazów bez wyraźnej zgody budzi wątpliwości etyczne i prawne.
W swoim oficjalnym oświadczeniu Google ponownie podkreślił swoje zaangażowanie w przejrzystość i zaangażowanie w inicjatywy mające na celu stworzenie standardów etycznych dla danych szkoleniowych AI.
Wyzwania etyczne i dynamika rynku konkurencyjnego
strong>
Gdy Google przesuwa granice generatywnej sztucznej inteligencji za pomocą Veo 2, Imagen 3 i Whisk, względy etyczne nabierają ogromnego znaczenia. Rosnące zaawansowanie tych narzędzi rodzi pytania dotyczące wykorzystywanych danych szkoleniowych, możliwości niewłaściwego wykorzystania oraz równowagi między innowacją a odpowiedzialnością.
Kwestie te są szczególnie istotne, ponieważ unijna ustawa o sztucznej inteligencji i podobne przepisy na całym świecie wymagają od firm technologicznych większej przejrzystości i odpowiedzialności.
Google pozostaje powściągliwy w kwestii zbiorów danych wykorzystywanych do szkolić swoje modele, w tym Veo 2 i Imagen 3, które wzbudziły zainteresowanie artystów, obrońców praw autorskich i organów regulacyjnych.
Raporty branżowe sugerują, że filmy z YouTube i inne publicznie dostępne treści mogły odegrać rolę w szkoleniu procesu, co jest praktyką, która wywołała debaty na temat praw własności intelektualnej w zakresie sztucznej inteligencji. Krytycy argumentują, że takie wykorzystanie danych może naruszać prawa autorskie twórców, szczególnie w przypadku braku wyraźnej zgody.
Unijna ustawa o sztucznej inteligencji pogłębia te obawy, wymagając od firm ujawniania, czy materiały chronione prawem autorskim stanowią część ich szkoleniowych zbiorów danych. Chociaż Google oświadczył, że przywiązuje wagę do przejrzystości, nie podał jeszcze kompleksowych szczegółów na temat pochodzenia swoich danych szkoleniowych.
W swoim oficjalnym oświadczeniu firma Google stwierdziła: „Aktywnie uczestniczymy w inicjatywach takich jak Inicjatywa na rzecz autentyczności treści, aby zapewnić etyczne praktyki w rozwoju sztucznej inteligencji”.
To zobowiązanie obejmuje przyjęcie Znak wodny SynthID i udział w protokole C2PA typu open source, oba mające na celu promowanie autentyczności treści i ograniczanie nadużyć.
Szersze implikacje dla branż kreatywnych
Integracja narzędzi takich jak Veo 2, Imagen 3 i Whisk może zmienić kształt branż, od produkcji filmowej i reklamy po sztukę cyfrową i tworzenie treści.
Obniżając bariery wejścia, narzędzia te umożliwiają twórcom niezależnie od umiejętności poziomy umożliwiające tworzenie wysokiej jakości efektów wizualnych, które kiedyś można było osiągnąć jedynie w profesjonalnych studiach, jednocześnie rodzą ważne pytania o przyszłość pracy twórczej i rolę sztucznej inteligencji w kształtowaniu ekspresji kulturalnej i artystycznej.
Dla filmowcom, Veo 2 oferuje opłacalną alternatywę do generowania kinowych efektów wizualnych, podczas gdy Imagen 3 i Whisk zapewniają nowe możliwości odkrywania stylów i pomysłów artystycznych.
Korzystanie z narzędzi sztucznej inteligencji budzi jednak również obawy związane z wypieraniem tradycyjnych ról twórczych, takich jak operatorzy, projektanci i ilustratorzy. Znalezienie równowagi między umożliwianiem innowacji a zachowaniem integralności ludzkiej kreatywności będzie kluczowym wyzwaniem dla firm takich jak Google w miarę ciągłego rozwijania tych technologii.
Najnowszy zestaw narzędzi Google odzwierciedla wizję sztucznej inteligencji, która priorytetowo traktuje dostępność , elastyczność i odpowiedzialność. Dzięki postępom, takim jak generowanie wideo 4K, większy realizm obrazu i remiksowanie wizualne, firma dąży do wzmocnienia pozycji twórców, jednocześnie stawiając czoła niektórym wyzwaniom etycznym i technicznym związanym z innowacjami sztucznej inteligencji.
strong>