Google Memperkenalkan Penjanaan Video Veo 2 AI dalam 4K; Memperbaik Imagen 3 Image Creator

Google telah melancarkan satu siri kemas kini terobosan kepada alatan AI generatifnya, mempamerkan komitmennya untuk meningkatkan kreativiti melalui teknologi. Di tengah-tengah pengumuman ini ialah Veo 2, penjana video AI generasi seterusnya syarikat yang mampu menghasilkan output resolusi 4K.

Menyertai Veo 2 ialah penjana imej Imagen 3 yang dikemas kini dan alat baharu yang dipanggil Whisk, yang membolehkan pengguna mengadun semula visual menggunakan gesaan berasaskan imej. Bersama-sama, alatan ini mewakili lonjakan yang ketara untuk cita-cita Google dalam bidang daya saing kreativiti AI, menyasarkan pencipta kandungan, artis dan perusahaan.

Veo 2: Penjanaan Video Lanjutan dalam 4K

strong>

Veo 2 dibina di atas asas pendahulunya, Veo, yang dilancarkan awal tahun ini, menawarkan peningkatan yang ketara dalam realisme video dan kawalan pengguna. Model baharu ini menyokong resolusi 4K, memberikan visual yang jelas dan gerakan yang lebih lancar, peningkatan yang jelas daripada had 1080p versi sebelumnya.

Di luar resolusi, Veo 2 memperkenalkan ciri yang membolehkan pengguna membuat gubahan sinematik yang sangat spesifik.

Gesaan seperti”gunakan kanta 18mm untuk kesan sudut lebar”atau”fokus pada subjek dengan kedalaman medan yang cetek”membolehkan kawalan diperhalusi ke atas estetika visual video yang dihasilkan.

Google menyifatkan model itu telah dilatih dalam”bahasa sinematografi”, membolehkannya meniru kesan visual kompleks yang sebelum ini menjadi domain pembuat filem profesional.

Dalam demonstrasi, Veo 2 mempamerkan keupayaannya untuk mengendalikan senario visual yang rumit dengan ketepatan Satu contoh menampilkan seorang penternak lebah yang bekerja di tengah-tengah segerombolan lebah madu, di mana pergerakan lebah dan pantulan. cahaya pada sayap mereka dipaparkan dengan ketepatan seperti hidup

[kandungan terbenam]

Satu lagi klip menggambarkan seorang saintis sedang mengintip ke dalam mikroskop, dengan kamera merakam kepekatan sengitnya dan butiran persekitaran yang halus, seperti pencahayaan pendarfluor makmal..

Google mengatakan bahawa Veo 2 menawarkan pemahaman yang lebih baik tentang fizik dunia sebenar dan kehalusan gerakan dan ekspresi manusia, bertujuan untuk meningkatkan realisme dan menyelesaikan cabaran biasa dalam penjanaan video AI.

[kandungan terbenam]

Peningkatan dalam realisme meluas kepada menangani perangkap biasa penjana video AI, seperti figura manusia yang herot, gerakan tidak realistik atau artifak visual luar. Keupayaan Veo 2 untuk mengurus cabaran ini meletakkannya sebagai alat utama untuk profesional kreatif yang mencari kandungan video yang dijana AI berkualiti tinggi.

SynthID: Ethical Safeguards for AI Content

Untuk menangani kebimbangan etika mengenai penyalahgunaan kandungan yang dijana AI, Veo 2 menyepadukan teknologi penanda air SynthID Google. Tandatangan digital yang tidak kelihatan ini dibenamkan terus ke dalam output, membolehkan video yang dijana AI dikenal pasti tanpa menjejaskan kualiti visualnya.

SynthID direka untuk mengurangkan risiko seperti maklumat salah atau manipulasi berniat jahat, memastikan alat AI digunakan secara bertanggungjawab. Dalam pengumumannya, Google menekankan bahawa mereka telah menumpukan pada memastikan kebolehpercayaan dan kebolehkesanan output Veo 2, disokong oleh ciri seperti penanda air SynthID.

Tidak seperti tera air yang boleh dilihat, SynthID beroperasi secara berhati-hati, yang menurut Google menjadikannya lebih praktikal. untuk kegunaan profesional sambil mengekalkan ketelusan. Walau bagaimanapun, pendekatan ini juga menimbulkan persoalan tentang penguatkuasaan, kerana ia bergantung pada pengguna atau platform yang mengesahkan kandungan secara aktif untuk mengesan kemungkinan penyalahgunaan.

Pelaksanaan SynthID Google sejajar dengan usaha yang lebih luas dalam industri teknologi, termasuk Inisiatif Ketulenan Kandungan dan protokol penanda air C2PA sumber terbuka, yang mana Google merupakan peserta aktif.

Veo 2 pada masa ini boleh diakses oleh pengguna melalui platform VideoFX dalam Google Labs, dengan pelancaran yang lebih luas dirancang untuk tahun 2025. Syarikat itu juga telah mengumumkan rancangan untuk menyepadukan teknologi ke dalam YouTube Shorts, membolehkan pencipta pada platform menjana video dipacu AI berkualiti tinggi secara langsung.

Setakat ini, akses masih terhad melalui sistem senarai tunggu, mencerminkan pendekatan berhati-hati Google untuk menskalakan ketersediaan.

Lanskap Kompetitif dalam Video AI

Kemajuan Google dalam penjanaan video datang apabila persaingan dalam ruang AI semakin panas. OpenAI baru-baru ini melancarkan penjana video Sora, tetapi keupayaannya kekal terhad kepada resolusi 1080p dan tempoh klip yang lebih pendek sehingga 20 saat.

[kandungan terbenam]

Sebaliknya, Veo 2 menyokong sehingga resolusi 4K dan boleh menjana klip yang lebih panjang, dengan tempoh yang dilanjutkan kepada beberapa minit. Semasa penilaian dalaman, Google melaporkan bahawa 59% pengguna memilih output Veo 2 berbanding Sora Turbo, versi alat OpenAI yang dinaik taraf.

Menurut Google, 59% pengguna dalam penilaian dalaman memilih Veo 2 daripada Sora Turbo, menyerlahkan keunggulan teknikalnya.

Runway, satu lagi pemain utama dalam ruang AI generatif, juga telah mencapai kemajuan dalam penjanaan video tetapi kekal terhad kepada output 720p. Ini meletakkan Veo 2 Google sebagai alat paling canggih untuk penciptaan video gred profesional.

Fokus strategik syarikat pada realisme, kawalan pengguna dan keluaran berkualiti tinggi menggariskan hasratnya untuk menangkap bahagian besar pasaran yang semakin meningkat bagi alatan kreatif dipacu AI.

[kandungan terbenam]

Imej 3: Memperluaskan Kemungkinan Artistik dalam Penjanaan Imej AI

Google juga telah menambah baik Imagen 3, lelaran terkini model penjanaan imej AInya. Kemas kini kepada Imagen 3 memperkenalkan tekstur yang lebih tajam, keseimbangan komposisi yang dipertingkatkan dan sokongan yang diperluaskan untuk gaya artistik yang pelbagai, daripada penggambaran fotorealistik kepada tafsiran impresionistik.

Salah satu ciri menonjol Imagen 3 ialah keupayaannya untuk memaparkan imej dengan lebih setia kepada gesaan pengguna. Model ini kini menghasilkan output yang lebih tepat sejajar dengan huraian yang disediakan, mengurangkan kekaburan yang kadangkala melanda versi terdahulu.

Keupayaan Imagen 3 untuk menyesuaikan diri dengan pelbagai gaya dan senario artistik menjadikannya alat yang menarik untuk pelbagai pengguna, daripada pereka profesional kepada penggemar yang meneroka projek kreatif. Model ini cemerlang dalam menghasilkan imej yang mengimbangi integriti artistik dengan pematuhan segera.

Dalam satu siri contoh yang dikongsi oleh Google, Imagen 3 mempamerkan keupayaannya melalui ciptaan yang menarik secara visual, termasuk pemandangan stesen kereta api tahun 1940-an yang berkabus, strawberi yang diukir dalam bentuk burung kolibri pada pertengahan penerbangan dan tangkapan makro definisi tinggi periuk seramik yang dipahat pada roda.

Setiap contoh menyerlahkan keupayaan model untuk menangkap butiran halus, seperti permainan cahaya dan bayang-bayang atau tekstur bahan yang rumit.

Google menyerlahkan bahawa Imagen 3 menyokong pelbagai gaya artistik, termasuk imej seperti hidup, konsep abstrak dan visual berinspirasikan anime, menawarkan fleksibiliti untuk memenuhi keperluan kreatif yang pelbagai.

Whisk: Mendefinisikan semula Visual Remixing

Google turut memperkenalkan alat baharu yang dipanggil Whisk, yang menawarkan pendekatan baharu kepada kreativiti dipacu AI dengan membenarkan pengguna menggabungkan gesaan visual untuk menjana imej baharu.

Tidak seperti sistem berasaskan teks tradisional, Whisk membenarkan pengguna memuat naik imej untuk menentukan subjek, adegan, atau gaya, yang kemudiannya diproses oleh alat untuk mencipta output yang padu. Ini menjadikannya sesuai untuk pengguna yang ingin membuat prototaip idea dengan cepat tanpa bergantung pada penerangan teks yang meluas.

Whisk memanfaatkan keupayaan model Gemini Google, yang menganalisis dan memberi kapsyen imej yang dimuat naik untuk mengekstrak ciri utama mereka. Kapsyen ini kemudiannya dimasukkan ke dalam Imagen 3, membolehkan alat menjana gabungan unik elemen visual yang disediakan.

Dalam satu demonstrasi, Whisk digunakan untuk menggabungkan imej motosikal vintaj dengan latar belakang hutan dan gaya seni berinspirasikan anime tahun 1980-an. Hasilnya ialah gubahan visual padu yang menggabungkan ketiga-tiga elemen dengan lancar. Pengguna boleh memperhalusi lagi output mereka dengan melaraskan gesaan atau mengubah suai ciri individu, menawarkan pendekatan berulang kepada penerokaan kreatif.

[kandungan terbenam]

Whisk mewakili satu lagi dimensi usaha Google untuk mengimbangi kreativiti dengan tanggungjawab etika. Dengan membolehkan pengguna menggabungkan gesaan visual, alat ini membuka kemungkinan baharu untuk eksperimen kreatif.

Walau bagaimanapun, pergantungan pada imej yang dimuat naik menimbulkan persoalan tentang harta intelek dan privasi. Walaupun Whisk tidak mencipta replika tepat imej yang dimuat naik, ia mengekstrak ciri utama untuk menghasilkan gubahan baharu, yang secara tidak sengaja boleh meniru unsur sensitif atau berhak cipta.

Ketersediaan Global yang Lebih Luas, tetapi dengan Had

Imej 3 kini tersedia secara global melalui ImageFX Google Labs platform, kecuali Jerman. Google telah menyebut strategi pelancaran berperingkat biasa sebagai sebab untuk pengehadan ini, tetapi penganalisis industri telah menunjukkan kemungkinan pengaruh Akta AI Kesatuan Eropah.

Perundangan ini memerlukan syarikat untuk mendedahkan maklumat terperinci tentang set data yang digunakan untuk melatih model AI mereka, termasuk sama ada bahan berhak cipta terlibat.

Walaupun Google belum mengesahkan butiran khusus data latihan Imagen 3, laporan sebelumnya mencadangkan bahawa set data yang mengandungi imejan yang tersedia secara umum, mungkin termasuk kandungan YouTube, telah menyumbang kepada pembangunan model.

Ini kekurangan ketelusan telah mencetuskan kebimbangan dalam kalangan artis dan penyokong hak cipta, yang berpendapat bahawa menggunakan imej yang tersedia secara umum tanpa kebenaran yang jelas menimbulkan persoalan etika dan undang-undang.

Dalam kenyataan rasminya, Google mengulangi komitmennya terhadap ketelusan dan penglibatan dalam inisiatif yang bertujuan untuk mewujudkan standard etika untuk data latihan AI.

Cabaran Etika dan Dinamik Pasaran Berdaya saing

strong>

Ketika Google menolak sempadan AI generatif dengan Veo 2, Imagen 3 dan Whisk, pertimbangan etika kelihatan besar. Peningkatan kecanggihan alat ini menimbulkan persoalan tentang data latihan yang digunakan, potensi penyalahgunaan dan keseimbangan antara inovasi dan tanggungjawab.

Google tetap menutup mulut tentang set data yang digunakan untuk melatih modelnya, termasuk Veo 2 dan Imagen 3, yang telah mendapat perhatian daripada artis, penyokong hak cipta dan pengawal selia.

Industri laporan mencadangkan bahawa video YouTube dan kandungan lain yang tersedia untuk umum mungkin telah memainkan peranan dalam proses latihan, satu amalan yang telah mencetuskan perdebatan tentang hak harta intelek dalam AI. Pengkritik berpendapat bahawa penggunaan data sedemikian boleh melanggar hak cipta pencipta, terutamanya apabila persetujuan yang jelas tidak diperolehi.

Akta AI EU meningkatkan kebimbangan ini dengan menghendaki syarikat mendedahkan sama ada bahan berhak cipta adalah sebahagian daripada set data latihan mereka. Walaupun Google telah menyatakan bahawa ia komited terhadap ketelusan, syarikat itu masih belum memberikan butiran komprehensif tentang asal usul data latihannya.

Implikasi yang Lebih Luas untuk Industri Kreatif

Penyepaduan alatan seperti Veo 2, Imagen 3 dan Whisk berpotensi untuk membentuk semula industri daripada pembikinan filem dan pengiklanan kepada seni digital dan penciptaan kandungan.

Dengan mengurangkan halangan kepada kemasukan, alatan ini membolehkan pencipta semua peringkat kemahiran menghasilkan visual berkualiti tinggi yang pernah dicapai hanya melalui studio profesional. Pada masa yang sama, mereka menimbulkan persoalan penting tentang masa depan kerja kreatif dan peranan AI dalam membentuk ekspresi budaya dan artistik.

Bagi pembuat filem, Veo 2 menawarkan alternatif yang menjimatkan kos untuk menjana visual sinematik, manakala Imagen 3 dan Whisk menyediakan jalan baharu untuk meneroka gaya dan idea artistik.

Walau bagaimanapun, penggunaan alatan AI juga menimbulkan kebimbangan tentang anjakan peranan kreatif tradisional, seperti ahli sinematograf, pereka bentuk dan ilustrator. Mencapai keseimbangan antara membolehkan inovasi dan memelihara integriti kreativiti manusia akan menjadi cabaran kritikal bagi syarikat seperti Google semasa mereka terus membangunkan teknologi ini.

Suit alat terbaharu Google mencerminkan visi untuk AI yang mengutamakan kebolehaksesan , fleksibiliti dan tanggungjawab. Melalui kemajuan seperti penjanaan video 4K, realisme imej yang dipertingkatkan dan pencampuran semula visual, syarikat itu menyasarkan untuk memperkasakan pencipta sambil menangani beberapa cabaran etika dan teknikal yang datang dengan inovasi AI.

Google Memperkenalkan Penjanaan Video Veo 2 AI dalam 4K; Memperbaik Imagen 3 Image Creator

Published by All Things Windows on December 16, 2024

Veo 2: Penjanaan Video Lanjutan dalam 4K

strong>

SynthID: Ethical Safeguards for AI Content

Lanskap Kompetitif dalam Video AI

Imej 3: Memperluaskan Kemungkinan Artistik dalam Penjanaan Imej AI

Whisk: Mendefinisikan semula Visual Remixing

Ketersediaan Global yang Lebih Luas, tetapi dengan Had

Cabaran Etika dan Dinamik Pasaran Berdaya saing

strong>

Implikasi yang Lebih Luas untuk Industri Kreatif

IT Info

Model Bahasa Visi Siri VL2 Sumber Terbuka AI DeepSeek

IT Info

Apple Intelligence dan Galaxy AI: Kebanyakan Pengguna Mencari Ciri AI Tidak Relevan

IT Info

Cara memasang pemacu grafik dengan betul apabila menaik taraf kepada GPU baharu pada Windows 11

Google Memperkenalkan Penjanaan Video Veo 2 AI dalam 4K; Memperbaik Imagen 3 Image Creator

Published by All Things Windows on December 16, 2024

Veo 2: Penjanaan Video Lanjutan dalam 4K strong>

SynthID: Ethical Safeguards for AI Content

Lanskap Kompetitif dalam Video AI

Imej 3: Memperluaskan Kemungkinan Artistik dalam Penjanaan Imej AI

Whisk: Mendefinisikan semula Visual Remixing

Ketersediaan Global yang Lebih Luas, tetapi dengan Had

Cabaran Etika dan Dinamik Pasaran Berdaya saing strong>

Implikasi yang Lebih Luas untuk Industri Kreatif

Related Posts

IT Info

Model Bahasa Visi Siri VL2 Sumber Terbuka AI DeepSeek

IT Info

Apple Intelligence dan Galaxy AI: Kebanyakan Pengguna Mencari Ciri AI Tidak Relevan

IT Info

Cara memasang pemacu grafik dengan betul apabila menaik taraf kepada GPU baharu pada Windows 11

Veo 2: Penjanaan Video Lanjutan dalam 4K

strong>

Cabaran Etika dan Dinamik Pasaran Berdaya saing

strong>