Inilabas ng Google ang isang serye ng mga groundbreaking na update sa mga generative AI tool nito, na nagpapakita ng pangako nito sa pagpapahusay ng pagkamalikhain sa pamamagitan ng teknolohiya. Sa gitna ng mga anunsyo na ito ay ang Veo 2, ang susunod na henerasyong AI video generator ng kumpanya na may kakayahang gumawa ng mga output ng 4K na resolusyon.

Ang pagsali sa Veo 2 ay ang na-update na Imagen 3 image generator at isang bagong tool na tinatawag na Whisk, na nagbibigay-daan sa mga user na mag-remix ng mga visual gamit ang mga prompt na batay sa imahe. Magkasama, ang mga tool na ito ay kumakatawan sa isang makabuluhang hakbang pasulong para sa mga ambisyon ng Google sa mapagkumpitensyang larangan ng AI creativity, na nagta-target ng mga tagalikha ng nilalaman, artist, at mga negosyo.

Veo 2: Advanced na Pagbuo ng Video sa 4K

strong>

Bumuo ang Veo 2 sa pundasyon ng hinalinhan nito, ang Veo, na inilunsad noong unang bahagi ng taong ito, na nag-aalok ng malaking pagpapabuti sa realismo ng video at kontrol ng gumagamit. Sinusuportahan ng bagong modelo ang 4K na resolution, na naghahatid ng mga malulutong na visual at mas malinaw na paggalaw, isang malinaw na pag-upgrade mula sa 1080p na limitasyon ng nakaraang bersyon.

Higit pa sa resolution, ipinakilala ng Veo 2 ang mga feature na nagbibigay-daan sa mga user na gumawa ng mga partikular na cinematic na komposisyon.

Ang mga prompt tulad ng”gumamit ng 18mm lens para sa isang malawak na anggulo na epekto”o”nakatuon sa isang paksa na may mababaw na lalim ng field”ay nagbibigay-daan sa pinong kontrol sa visual aesthetic ng mga nabuong video.

Inilalarawan ng Google ang modelo bilang sinanay sa”wika ng cinematography,”na nagbibigay-daan dito upang kopyahin ang mga kumplikadong visual effect na dating domain ng mga propesyonal na gumagawa ng pelikula.

Sa mga demonstrasyon, Veo 2 ay nagpakita ng kakayahang pangasiwaan ang masalimuot na mga visual na senaryo nang may katumpakan. ng liwanag sa kanilang mga pakpak ay nai-render nang may parang buhay na katumpakan

[naka-embed na nilalaman]

Ang isa pang clip ay naglalarawan ng isang siyentipiko na sumilip sa isang mikroskopyo, kung saan kinukunan ng camera ang kanyang matinding konsentrasyon at banayad na mga detalye sa kapaligiran, tulad ng fluorescent lighting ng laboratoryo..

Sinasabi ng Google na ang Veo 2 ay nag-aalok ng mas mahusay na pag-unawa sa real-world na physics at ang mga subtleties ng paggalaw at pagpapahayag ng tao, na naglalayong mapabuti ang pagiging totoo at lutasin ang mga karaniwang hamon sa pagbuo ng AI video.

[naka-embed na nilalaman]

Ang mga pagpapabuti sa realismo ay umaabot sa pagtugon sa mga karaniwang pitfalls ng AI video generator, gaya ng mga distorted na figure ng tao, hindi makatotohanang paggalaw, o mga extraneous na visual artifact. Ipinoposisyon ito ng kakayahan ng Veo 2 na pamahalaan ang mga hamong ito bilang isang nangungunang tool para sa mga creative na propesyonal na naghahanap ng mataas na kalidad na nilalamang video na binuo ng AI.

SynthID: Ethical Safeguards para sa AI Content

Upang matugunan ang mga etikal na alalahanin tungkol sa maling paggamit ng nilalamang binuo ng AI, isinasama ng Veo 2 ang teknolohiya ng watermarking ng SynthID ng Google. Direktang naka-embed ang invisible na digital signature na ito sa output, na nagbibigay-daan sa mga video na binuo ng AI na makilala nang hindi nakompromiso ang kanilang visual na kalidad.

Ang SynthID ay idinisenyo upang mabawasan ang mga panganib gaya ng maling impormasyon o malisyosong pagmamanipula, na tinitiyak na ang mga tool ng AI ay ginagamit nang responsable. Sa anunsyo nito, binigyang-diin ng Google na nakatuon sila sa pagtiyak sa pagiging maaasahan at traceability ng mga output ng Veo 2, na sinusuportahan ng mga feature tulad ng SynthID watermarking.

Hindi tulad ng mga nakikitang watermark, ang SynthID ay nagpapatakbo nang maingat, na pinagtatalunan ng Google na ginagawang mas praktikal. para sa propesyonal na paggamit habang pinapanatili ang transparency. Gayunpaman, itinataas din ng diskarteng ito ang mga tanong tungkol sa pagpapatupad, dahil umaasa ito sa mga user o platform na aktibong nagbe-verify ng content para makita ang potensyal na maling paggamit.

Ang pagpapatupad ng Google ng SynthID ay umaayon sa mas malawak na pagsisikap sa loob ng tech na industriya, kabilang ang Content Authenticity Initiative at ang open-source na C2PA watermarking protocol, kung saan ang Google ay aktibong kalahok.

Veo 2 ay kasalukuyang naa-access ng mga user sa pamamagitan ng VideoFX platform sa Google Labs, na may mas malawak na paglulunsad na binalak para sa 2025. Nag-anunsyo rin ang kumpanya ng mga plano na isama ang teknolohiya sa YouTube Shorts, na nagbibigay-daan sa mga creator sa platform na direktang bumuo ng mga video na hinimok ng AI na may mataas na kalidad.

Sa ngayon, nananatiling limitado ang access sa pamamagitan ng isang waitlist system, na nagpapakita ng maingat na diskarte ng Google sa pag-scale ng availability.

Competitive Landscape sa AI Video

Ang mga pagsulong ng Google sa pagbuo ng video ay dumarating habang umiinit ang kumpetisyon sa AI space. Inilunsad kamakailan ng OpenAI ang Sora video generator nito, ngunit ang mga kakayahan nito ay nananatiling limitado sa 1080p na resolusyon at mas maiikling tagal ng clip na hanggang 20 segundo.

[naka-embed na nilalaman]

Sa kabaligtaran, sinusuportahan ng Veo 2 ang hanggang 4K na resolution at maaaring makabuo ng mas mahabang clip, na may mga tagal na umaabot sa ilang minuto. Sa panahon ng mga panloob na pagsusuri, iniulat ng Google na 59% ng mga user ang ginusto ang mga output ng Veo 2 kaysa sa Sora Turbo, ang na-upgrade na bersyon ng tool ng OpenAI.

Ayon sa Google, 59% ng mga user sa mga panloob na pagsusuri ay mas gusto ang Veo 2 kaysa sa Ang Sora Turbo, na itinatampok ang teknikal na kahusayan nito.

Runway, isa pang pangunahing manlalaro sa generative AI space, ay gumawa rin ng mga hakbang sa pagbuo ng video ngunit nananatiling limitado sa 720p na output. Ipinoposisyon nito ang Veo 2 ng Google bilang ang pinaka-advanced na tool para sa paggawa ng video na may gradong propesyonal.

Ang estratehikong pagtutok ng kumpanya sa pagiging totoo, kontrol ng user, at mga de-kalidad na output ay binibigyang-diin ang layunin nitong makuha ang malaking bahagi ng lumalagong merkado para sa mga tool sa creative na hinimok ng AI.

[naka-embed na content]

Larawan 3: Pagpapalawak ng Mga Masining na Posibilidad sa Pagbuo ng Larawan ng AI

Pinabuti rin ng Google ang Imagen 3, ang pinakabagong pag-ulit ng modelo ng pagbuo ng imahe ng AI nito. Ang pag-update sa Imagen 3 ay nagpapakilala ng mas matalas na mga texture, pinahusay na balanse ng komposisyon, at pinalawak na suporta para sa magkakaibang mga artistikong istilo, mula sa mga photorealistic na paglalarawan hanggang sa mga impressionistic na interpretasyon.

Ang isa sa mga natatanging tampok ng Imagen 3 ay ang kakayahang mag-render ng mga larawan na may higit na katapatan sa mga senyas ng user. Gumagawa na ngayon ang modelo ng mga output na mas tumpak na naaayon sa mga paglalarawang ibinigay, na binabawasan ang kalabuan na minsan ay sumasakit sa mga naunang bersyon.

Ang kakayahan ng Imagen 3 na umangkop sa iba’t ibang artistikong istilo at senaryo ay ginagawa itong isang kaakit-akit na tool para sa malawak na hanay ng mga user, mula sa mga propesyonal na designer hanggang sa mga hobbyist na nag-e-explore ng mga creative na proyekto. Ang modelo ay mahusay sa pagbuo ng mga imahe na nagbabalanse ng artistikong integridad na may agarang pagsunod.

Sa isang serye ng mga halimbawang ibinahagi ng Google, ipinakita ng Imagen 3 ang mga kakayahan nito sa pamamagitan ng kapansin-pansing mga nilikha, kabilang ang isang maulap na eksena sa istasyon ng tren noong 1940s, isang strawberry na nililok sa hugis ng isang hummingbird sa kalagitnaan ng paglipad, at isang high-definition macro shot ng isang ceramic pot na nililok sa isang gulong.

Ang bawat halimbawa ay nagha-highlight sa kakayahan ng modelo na kumuha ng mga magagandang detalye, gaya ng paglalaro ng liwanag at anino o ang masalimuot na texture ng mga materyales.

Na-highlight ng Google na ang Imagen 3 ay sumusuporta sa isang malawak na hanay ng mga artistikong istilo, kabilang ang parang buhay na mga larawan, abstract na konsepto, at anime-inspired na visual, na nag-aalok ng flexibility upang matugunan ang magkakaibang mga creative na pangangailangan.

Whisk: Muling Pagtukoy sa Visual Remixing

Nagpakilala rin ang Google ng bagong tool na tinatawag na Whisk, na nag-aalok ng bagong diskarte sa pagkamalikhain na hinihimok ng AI sa pamamagitan ng pagpayag sa mga user na pagsamahin ang mga visual na prompt para sa pagbuo ng mga bagong larawan.

Hindi tulad ng mga tradisyunal na sistemang nakabatay sa text, hinahayaan ng Whisk ang mga user na mag-upload ng mga larawan upang tukuyin ang isang paksa, eksena, o istilo, na pinoproseso ng tool upang lumikha ng magkakaugnay na mga output. Ginagawa nitong perpekto para sa mga user na naghahanap upang mabilis na mag-prototype ng mga ideya nang hindi umaasa sa malawak na mga paglalarawang tekstuwal.

Ang Whisk ay gumagamit ng mga kakayahan ng Gemini model ng Google, na nagsusuri at naglalagay ng mga caption sa mga na-upload na larawan upang kunin ang kanilang mga pangunahing feature. Ang mga caption na ito ay ilalagay sa Imagen 3, na nagbibigay-daan sa tool na bumuo ng mga natatanging kumbinasyon ng mga ibinigay na visual na elemento.

Sa isang demonstrasyon, ginamit ang Whisk upang pagsamahin ang isang larawan ng isang vintage na motorsiklo na may background sa gubat at isang istilong sining na inspirasyon ng anime noong 1980s. Ang resulta ay isang magkakaugnay na visual na komposisyon na pinaghalo ang lahat ng tatlong elemento nang walang putol. Maaaring higit pang pinuhin ng mga user ang kanilang mga output sa pamamagitan ng pagsasaayos ng mga prompt o pagsasaayos ng mga indibidwal na feature, na nag-aalok ng umuulit na diskarte sa creative exploration.

[naka-embed na content]

Ipinaliwanag ng Google ang layunin sa likod ng Whisk sa anunsyo nito: “Gusto naming gumawa ng tool na pinapasimple ang visual na ideya, na ginagawang mas madali para sa mga user na mag-eksperimento sa mga konsepto at pinuhin ang kanilang malikhaing pananaw.”

Ang Whisk ay kumakatawan sa isa pang dimensyon ng mga pagsisikap ng Google na balansehin pagiging malikhain na may etikal na responsibilidad eksaktong mga replika ng mga na-upload na larawan, kinukuha nito ang mga pangunahing tampok upang makabuo ng mga bagong komposisyon, na maaaring hindi sinasadyang gumagaya ng sensitibo o naka-copyright. mga elemento.

Mas malawak na Global Availability, ngunit may Mga Limitasyon

Ang Imagen 3 ay available na ngayon sa buong mundo sa pamamagitan ng Platform ng ImageFX ng Google Labs, maliban sa Germany. Binanggit ng Google ang karaniwan nitong phased rollout na diskarte bilang dahilan ng limitasyong ito, ngunit itinuro ng mga analyst ng industriya ang posibleng impluwensya ng AI Act ng European Union.

Ang batas na ito ay nag-aatas sa mga kumpanya na magbunyag ng detalyadong impormasyon tungkol sa mga dataset na ginamit upang sanayin ang kanilang mga modelo ng AI, kabilang ang kung may kinalaman ang naka-copyright na materyal.

Bagama’t hindi kinumpirma ng Google ang mga detalye ng data ng pagsasanay ng Imagen 3, ang mga nakaraang ulat ay nagmumungkahi na ang mga dataset na naglalaman ng pampublikong magagamit na koleksyon ng imahe, na posibleng kasama ang nilalaman ng YouTube, ay nag-ambag sa pagbuo ng modelo.

Ito Ang kawalan ng transparency ay nagdulot ng mga alalahanin sa mga artist at mga tagapagtaguyod ng copyright, na nangangatuwiran na ang paggamit ng mga larawang available sa publiko nang walang tahasang pahintulot ay nagdudulot ng mga etikal at legal na tanong.

Sa opisyal na pahayag nito, inulit ng Google ang pangako nito sa transparency at paglahok sa mga inisyatiba na naglalayong lumikha ng mga etikal na pamantayan para sa data ng pagsasanay sa AI.

Mga Etikal na Hamon at Competitive Market Dynamics

strong>

Habang itinutulak ng Google ang mga hangganan ng generative AI na may Veo 2, Imagen 3, at Whisk, ang mga etikal na pagsasaalang-alang ay lumalabas nang malaki. Ang pagtaas ng pagiging sopistikado ng mga tool na ito ay nagdudulot ng mga tanong tungkol sa data ng pagsasanay na ginamit, ang potensyal para sa maling paggamit, at ang balanse sa pagitan ng pagbabago at responsibilidad.

Ang mga isyung ito ay partikular na makabuluhan dahil ang AI Act ng EU at ang mga katulad na regulasyon sa buong mundo ay humihiling ng higit na transparency at pananagutan mula sa mga tech na kumpanya.

Nanatiling tikom ang bibig ng Google tungkol sa mga dataset na ginamit sa sanayin ang mga modelo nito, kabilang ang Veo 2 at Imagen 3, na nakakuha ng pagsisiyasat mula sa mga artist, tagapagtaguyod ng copyright, at regulator.

Iminumungkahi ng mga ulat sa industriya na ang mga video sa YouTube at iba pang available sa publiko maaaring gumanap ng papel ang nilalaman sa proseso ng pagsasanay, isang kasanayan na nagdulot ng mga debate tungkol sa mga karapatan sa intelektwal na ari-arian sa AI. Naninindigan ang mga kritiko na maaaring lumabag ang naturang paggamit ng data sa mga copyright ng mga creator, lalo na kapag hindi nakuha ang tahasang pahintulot.

Pinatitindi ng EU AI Act ang mga alalahaning ito sa pamamagitan ng pag-aatas sa mga kumpanya na ibunyag kung bahagi ng kanilang mga dataset ng pagsasanay ang naka-copyright na materyal. Bagama’t sinabi ng Google na nakatuon ito sa transparency, hindi pa nagbibigay ang kumpanya ng mga kumpletong detalye tungkol sa pinagmulan ng data ng pagsasanay nito.

Sa opisyal na anunsyo nito, sinabi ng Google,”Kami ay aktibong nakikilahok sa mga hakbangin tulad ng Content Authenticity Initiative upang matiyak ang mga etikal na kasanayan sa pagpapaunlad ng AI.”

Kabilang sa pangakong ito ang pagpapatibay ng SynthID watermarking at pakikilahok sa open-source C2PA protocol, parehong naglalayong i-promote ang pagiging tunay ng content at mabawasan ang maling paggamit.

SynthID at ang Fight Against Misinformation

Ang SynthID ng Google ay naglalapat ng hindi nakikitang watermark sa mga video at larawan Hindi tulad ng mga tradisyonal na watermark, ang SynthID ay nagsasama ng walang putol sa visual na output nang hindi binabago ang hitsura nito partikular na kapaki-pakinabang para sa mga propesyonal na application, kung saan ang mga nakikitang watermark ay maaaring makabawas sa panghuling produkto.

Gayunpaman, ang hindi nakikitang kalikasan ng SynthID, gayunpaman, din ay nagpapakilala ng mga hamon.

Binigyang-diin ng Google na ang SynthID ay bahagi ng mas malawak na pagsisikap na bawasan ang mga panganib gaya ng disinformation sa pulitika at malisyosong pag-edit ng nilalamang binuo ng AI.

Mas malawak na Implikasyon para sa Mga Malikhaing Industriya

Ang pagsasama-sama ng mga tool tulad ng Veo 2, Imagen 3, at Whisk ay may potensyal na baguhin ang hugis ng mga industriya mula sa paggawa ng pelikula at advertising sa digital art at paglikha ng nilalaman.

Sa pamamagitan ng pagpapababa sa mga hadlang sa pagpasok, binibigyang-daan ng mga tool na ito ang mga tagalikha ng lahat ng antas ng kasanayan na makagawa ng mga de-kalidad na visual na dati ay makakamit lamang sa pamamagitan ng propesyonal mga studio. Kasabay nito, itinataas nila ang mahahalagang tanong tungkol sa kinabukasan ng malikhaing gawain at ang papel ng AI sa paghubog ng kultural at masining na pagpapahayag.

Para sa mga gumagawa ng pelikula, nag-aalok ang Veo 2 ng alternatibong cost-effective para sa pagbuo ng mga cinematic visual, habang ang Imagen 3 at Whisk ay nagbibigay ng mga bagong paraan para sa pagtuklas ng mga artistikong istilo at ideya.

Gayunpaman, ang paggamit ng mga tool ng AI ay nagdudulot din ng mga alalahanin tungkol sa paglilipat ng mga tradisyonal na malikhaing tungkulin, gaya ng mga cinematographer, designer, at illustrator. Ang pagkakaroon ng balanse sa pagitan ng pagpapagana ng pagbabago at pagpapanatili ng integridad ng pagkamalikhain ng tao ay magiging isang kritikal na hamon para sa mga kumpanyang tulad ng Google habang patuloy nilang ginagawa ang mga teknolohiyang ito.

Ang pinakabagong hanay ng mga tool ng Google ay sumasalamin sa isang pananaw para sa AI na nagbibigay-priyoridad sa accessibility. , flexibility, at responsibilidad. Sa pamamagitan ng mga pagsulong tulad ng pagbuo ng 4K na video, pinahusay na pagiging totoo ng imahe, at visual na remixing, nilalayon ng kumpanya na bigyang kapangyarihan ang mga creator habang tinutugunan ang ilan sa mga etikal at teknikal na hamon na kasama ng AI innovation.

Categories: IT Info