Google și-a modernizat în mod semnificativ crearea de conținut de inteligență artificială Arsenal, lansând VEO 3, cel mai recent model de generare video acum capabil să creeze și să integreze audio, inclusiv dialog și efecte de mediu. Această mișcare îi provoacă direct pe concurenți precum Sora Openai, cu audio integrat un diferențiator cheie. Alături de VEO 3, Google a introdus flux , un nou instrument de realizare a filmelor AI și Imagen 4 pentru o generare de imagini îmbunătățite, semnalând o apăsare majoră în instrumentele AI multimodale sofisticate. 249,99 USD pe lună AI Ultra Plan, cu acces la întreprindere prin Vertex AI. This pricing strategy underscores Google’s intent to monetize its advanced AI, offering powerful tools that could transform creative workflows for filmmakers, marketers, and artists by simplifying the production of more immersive content.
Veo 3: Bringing Sound to AI-Generated Video
Veo 3 marks a notable advancement by incorporating native audio generation, a feature Predecesorul său, VEO 2, nu avea. Eli Collins, vicepreședintele produsului Google Deepmind, a declarat că „VEO 3 excelează de la textul și imaginea care solicită fizicii din lumea reală și sincronizarea exactă a buzelor”. Aceasta se bazează pe fundația Veo 2, care a oferit deja producții de 4K și a înțeles prompturi cinematografice, fiind instruit pe „limbajul cinematografiei. src=”date: imagine/svg+xml; nitro-go-id=mty5otoxmjm0-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nt giihdpzhropsixmdi0iibozwlnahq9iju1ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> [Conținut încorporat]
Capacitatea de a genera audio sincronizat-de la dialogul personajelor cu sincronizarea buzelor până la zgomotul de fundal ambiental-direct în cadrul procesului de creare video este un pas semnificativ. Demis Hassabis, CEO-ul Google DeepMind, a remarcat că, cu VEO 3, „ieșim din epoca tăcută a generarii video. VEO 3 este, de asemenea, în previzualizare privată pe Vertex AI , unde poate genera videoclipuri din Elemente.
Flow: Un set de instrumente dedicat pentru filmul AI
Instrumentul recent introdus de filme AI, Flow, este conceput pentru creativi, integrând modelele de frunte Google: VEO pentru video, imaginați pentru generarea de „ingrediente”, cum ar fi personaje sau scene din text, și gemini pentru a genera o „ingrediente”, precum personajele sau scenele din text și gemini pentru a solicita „ingrediente vizuale”. Blogul Google descrie fluxul ca o evoluție a experimentului Videofx Google Labs, conceput pentru a face crearea „conținut fără efort, iterativ, și a experimentului de posibilitate.
Google explică faptul că fluxul este conceput personalizat pentru VEO, folosind aderarea sa promptă excepțională și capacitatea de a produce ieșiri cinematografice uimitoare, realiste, în timp ce Gemeni facilitează solicitarea intuitivă în limbajul de zi cu zi, iar Imagen permite utilizatorilor să creeze sau să importe active cu consecvență. Management și Flow TV — O vitrină de la Google Labs, unde utilizatorii pot învăța din solicitări și tehnici partajate.
Accesul este disponibil prin intermediul planului Google AI Pro, care oferă funcții de flux cheie și 100 de generații pe lună și prin intermediul planului Google AI Pro Ultra, ceea ce oferă 100 de generații de ultim Acces la VEO 3 cu audio-ul său integrat.
Google a evidențiat colaborări cu producători de film precum Dave Clark, care a utilizat fluxul pentru dezvoltarea de scurtmetraje. Realizatorul Darren Aronofsky a comentat peisajul în evoluție, afirmând că „realizarea filmelor a fost întotdeauna condusă de tehnologie” și a adăugat că „acum este momentul de a explora aceste noi instrumente și de a le modela pentru viitorul povestirii. promițătoare viteză îmbunătățită, performanță și generarea de detalii fine. PetaPixel a detaliat, de asemenea, că Imagen 4 acceptă diverse stiluri, mai multe raporturi de aspect, rezoluție de până la 2K și este mai bun la redactarea textului, cu o „variantă rapidă” planificată să fie de până la 10 ori mai rapidă decât Imagen 3.
Imagine generată cu Imagen 4 (Sursa: Google)
Acest lucru abordează criticile trecute ale generației de imagini Google, cum ar fi atunci când Imagen 3 a produs istoric din punct de vedere istoric, în cazul în care rezultatele Google, precum Goo-Fe-Fo-Fo-Found Sergey Brin a atribuit lipsei „testării minuțioase”. Imagen 4 este acum în Public Preview on Vertex AI , livrarea de texte îmbunătățite și a unei prompturi de aderare. Suite, Google a actualizat generatorul video VEO 2 pentru a permite utilizatorilor să adauge sau să elimine obiecte din videoclipuri folosind prompturi de text. Modelul de generare a muzicii Lyria 2 este acum disponibil în general în Vertex AI, oferind crearea de muzică de înaltă fidelitate cu un control mai mare asupra instrumentelor și BPM de la textul prompturilor, o actualizare din introducerea inițială în aprilie 2025.
contextul pieței, concurența și considerațiile în curs de desfășurare
Aceste lansări apar ca imagine de a fi condusă de imagini și de imagini de generare video. OpenAI CEO Sam Altman, for instance, remarked that ChatGPT’s 4o image generator was so heavily used after its launch that it caused the company’s computing chips to “melt.”
Google’s tiered subscription model for Flow and Veo 3, including the comprehensive Google AI Ultra plan which bundles Aceste instrumente cu premiul YouTube și 30TB de stocare în cloud vizează clar atât utilizatorii entuziaști, cât și întreprinderile.
considerente etice și dezvoltarea AI responsabilă rămân centrale. Tot conținutul de la VEO 3, Imagen 4 și Lyria 2 vor prezenta filigrane sintetice, iar Google a introdus un public Instrument de detector sintetizat pentru a verifica conținutul au-generated.
Cu toate acestea, transparența în ceea ce privește seturile de date utilizate pentru formarea acestor modele continuă să fie subiect de discuții în industrie, în special cu reglementări precum AI-ul Uniunii Europene. Politica de confidențialitate Gemini de la Google Notează colectarea datelor din chat-uri și fișiere. În cele din urmă, viziunea Google, așa cum a fost articulată anterior de CEO-ul DeepMind, Demiss Hassabis, este „Google în cele din urmă să-și combine modelele Gemini și VEO AI pentru a îmbunătăți înțelegerea lumii fizice”, sugerând un viitor al aplicațiilor multimodale și mai profund integrate.