Google heeft op Google I/O 2024 zijn nieuwste AI-mediacreatiemodellen, Veo en Imagen 3, geïntroduceerd. Veo is ontworpen om 1080p-video’s van hoge kwaliteit te produceren, terwijl Imagen 3 het nieuwste tekst-naar-afbeelding-framework van het bedrijf is. Deze modellen zijn bedoeld om te concurreren met OpenAI’s Sora-videomodel en Dall-E 3, die bekendheid hebben verworven in door AI gegenereerde media.

Geavanceerde mogelijkheden van Veo

Veo beschikt volgens Google over een geavanceerd begrip van natuurlijke taal en visuele semantiek, waardoor het video’s kan maken die langer dan een minuut duren. De AI kan filmische technieken, zoals timelapse, begrijpen en natuurkunde uit de echte wereld simuleren. Veo kan video’s genereren op basis van tekst-, beeld-en videoprompts, waardoor een veelzijdig scala aan creatieve output mogelijk is. De CEO van Google DeepMind, Demis Hassabis, zei dat videoresultaten kunnen worden verfijnd met behulp van extra aanwijzingen, waardoor het creatieve proces wordt verbeterd.

Om de mogelijkheden van Veo te demonstreren, werkt Google samen met Donald Glover en zijn creatieve studio, Gilga. In een promotievideo gebruiken Glover en zijn team tekstprompts om scènes te genereren zoals een cabriolet die aankomt bij een Europees huis en een zeilboot die door de oceaan glijdt. Glover benadrukt dat de kern van deze tools het vertellen van verhalen is, wat suggereert dat iedereen regisseur kan worden met dergelijke technologie.
 
[embedded content]

Toekomst van Veo in contentcreatie

Google onderzoekt aanvullende functies waarmee Veo storyboards en langere scènes kan produceren. Het bedrijf nodigt geselecteerde filmmakers en makers uit om met het model te experimenteren om te bepalen hoe het creatieven het beste kan ondersteunen. Sommige Veo-functies zullen beschikbaar zijn voor geselecteerde makers in een privévoorbeeld binnen VideoFX. Google is van plan in de toekomst een aantal mogelijkheden van Veo toe te voegen aan YouTube Shorts.

Imagen 3 verbetert het genereren van tekst naar afbeeldingen

Imagen 3, de nieuwste versie van Google tekst-naar-afbeelding-model, belooft een hogere kwaliteit en meer gedetailleerde fotorealistische afbeeldingen met minder artefacten. Google beweert dat Imagen 3 tekst effectiever verwerkt dan zijn voorgangers en complexe details kan beheren vanaf uitgebreide aanwijzingen. Er wordt verwacht dat het model een sterke concurrent zal zijn van Dall-E 3 van OpenAI, dat bekend staat om zijn mogelijkheden op het gebied van door AI gegenereerde beelden.

Music AI Sandbox voor artiesten

Naast Veo en Imagen 3 heeft Google Music AI Sandbox geïntroduceerd, een reeks tools gericht op het opnemen van artiesten om te helpen bij het maken van nummers en beats. Kunstenaars als Wyclef Jean en Bjorn werken samen met Google om deze tools te testen. De Music AI Sandbox heeft al een aantal intrigerende demonstraties opgeleverd, hoewel specifieke details beperkt zijn.
 
[embedded content]

De nieuwe AI-tools van Google weerspiegelen de substantiële investeringen van het bedrijf in AI-technologie, met als doel toonaangevend te zijn de volgende belangrijke vooruitgang in computergebruik. Veo is momenteel beschikbaar in de Google’s VideoFX-tool voor geselecteerde videomakers en wordt binnenkort geïntegreerd in YouTube Shorts en andere producten. Google heeft de afgelopen jaren verschillende modellen voor het genereren van video’s geproduceerd, waaronder Phenaki, Imagen Video en Lumiere.

Concurrentie met OpenAI

OpenAI is al aan het pitchen zijn eigen AI-videogenerator Sora naar Hollywood en is van plan deze later dit jaar aan het publiek vrij te geven. OpenAI kan het Sora-model mogelijk rechtstreeks beschikbaar maken in videobewerkingstoepassingen zoals Adobe Premiere Pro. Dit competitieve landschap onderstreept de snelle evolutie en het groeiende belang van AI bij het creëren van media.

Categories: IT Info