O Google apresentou seus mais recentes modelos de criação de mídia com IA, Veo e Imagen 3, no Google I/O 2024. O Veo foi projetado para produzir vídeos 1080p de alta qualidade, enquanto o Imagen 3 é a mais nova estrutura de conversão de texto em imagem da empresa. Esses modelos visam competir com o modelo de vídeo Sora da OpenAI e o Dall-E 3, que ganharam destaque em mídia gerada por IA.
Capacidades avançadas do Veo
Veo, segundo o Google, possui um conhecimento avançado de linguagem natural e semântica visual, o que lhe permite criar vídeos que duram mais de um minuto. A IA pode compreender técnicas cinematográficas, como lapso de tempo, e simular a física do mundo real. Veo pode gerar vídeos a partir de prompts de texto, imagem e vídeo, permitindo uma gama versátil de resultados criativos. O CEO do Google DeepMind, Demis Hassabis, mencionou que os resultados dos vídeos podem ser refinados usando prompts adicionais, melhorando o processo criativo.
Para demonstrar as capacidades do Veo, o Google fez parceria com Donald Glover e seu estúdio criativo, Gilga. Num vídeo promocional, Glover e a sua equipa utilizam instruções de texto para gerar cenas como um descapotável a chegar a uma casa europeia e um veleiro a deslizar pelo oceano. Glover enfatiza que o núcleo dessas ferramentas é contar histórias, sugerindo que qualquer pessoa pode se tornar diretor com essa tecnologia.
[conteúdo incorporado]
Futuro da Veo na criação de conteúdo
Google está explorando recursos adicionais para permitir que a Veo produza storyboards e cenas mais longas. A empresa está convidando cineastas e criadores selecionados para experimentar o modelo para determinar como ele pode apoiar melhor os criativos. Alguns recursos do Veo estarão disponíveis para criadores selecionados em uma visualização privada dentro do VideoFX. O Google planeja adicionar alguns dos recursos do Veo aos Shorts do YouTube no futuro.
Imagen 3 aprimora a geração de texto para imagem
Imagen 3, o mais recente do Google modelo de texto para imagem, promete imagens fotorrealistas de maior qualidade e mais detalhadas com menos artefatos. O Google afirma que o Imagen 3 lida com texto de forma mais eficaz do que seus antecessores e pode gerenciar detalhes complexos a partir de prompts estendidos. Espera-se que o modelo seja um forte concorrente do Dall-E 3 da OpenAI, que é bem conhecido por suas capacidades em imagens geradas por IA.
Music AI Sandbox for Recording Artists
Além do Veo e do Imagen 3, o Google introduziu o Music AI Sandbox, um conjunto de ferramentas destinadas a artistas de gravação para auxiliar na criação de músicas e batidas. Artistas como Wyclef Jean e Bjorn estão colaborando com o Google para testar essas ferramentas. O Music AI Sandbox já produziu algumas demonstrações intrigantes, embora os detalhes específicos sejam limitados.
[conteúdo incorporado]
As novas ferramentas de IA do Google refletem o investimento substancial da empresa em tecnologia de IA, com o objetivo de liderar o próximo avanço significativo na computação. Atualmente, o Veo está disponível na ferramenta VideoFX do Google para criadores selecionados. e em breve será integrado ao YouTube Shorts e outros produtos. O Google produziu vários modelos de geração de vídeo nos últimos anos, incluindo Phenaki, Imagen Video e Lumiere.
Competição com OpenAI
OpenAI já está lançando seu próprio gerador de vídeo AI, Sora, para Hollywood e planeja lançá-lo ao público ainda este ano. A OpenAI pode disponibilizar o modelo Sora diretamente em aplicativos de edição de vídeo como o Adobe Premiere Pro. Este cenário competitivo sublinha a rápida evolução e a importância crescente da IA na criação de meios de comunicação.