Google Research revelou o VideoPoet, um novo modelo de linguagem grande (LLM) que se destaca como um avanço significativo capaz de gerar vídeos. O modelo se distingue por evitar os métodos estabelecidos baseados em difusão comumente usados ​​na indústria e optar por um LLM. Historicamente, esse método tem sido empregado principalmente para produção de texto e código, mas agora é adaptado pelo Google para criar vídeos.

Pré-treinamento gera sucesso

Em vez de dependendo das técnicas de difusão como as vistas na Difusão Estável, o VideoPoet capitaliza um extenso pré-treinamento. O modelo processou 270 milhões de vídeos e mais de um bilhão de pares de texto e imagem coletados de domínios públicos e de diversas fontes. Ao converter esse vasto conjunto de dados em incorporações de texto, tokens visuais e tokens de áudio, o VideoPoet pode gerar conteúdo de vídeo sofisticado com notável adesão aos prompts de entrada.

[conteúdo incorporado]

Superando a concorrência

VideoPoet é excelente na produção de videoclipes mais longos e de alta qualidade, apresentando movimentos mais consistentes do que seus equivalentes baseados em difusão, que tendem a ter dificuldade para manter a coerência em quadros estendidos. Ao empregar 31 pesquisadores, o Google conseguiu criar uma solução que elimina muitas das restrições e problemas que assolam os geradores de vídeo contemporâneos. Os avaliadores humanos reconheceram a capacidade aprimorada do VideoPoet, expressando uma clara preferência por seus resultados em relação aos produtos rivais, incluindo aqueles produzidos por outros modelos líderes em qualidade de movimento e adesão imediata.

O Google adaptou o VideoPoet para padrão vertical. produção de vídeo, atendendo ao crescente mercado de vídeo móvel. No futuro, a gigante da tecnologia pretende ampliar a capacidade do modelo para abranger uma variedade de tarefas de geração, como texto para áudio e áudio para vídeo, redefinindo os limites das capacidades de geração de vídeo e áudio.

No entanto, o tão aguardado VideoPoet ainda não está acessível ao público. Após consulta, o Google não especificou quando a ferramenta poderá estar disponível. Por enquanto, tanto os profissionais como os entusiastas da indústria aguardam ansiosamente o impacto que o VideoPoet terá no mercado, enquanto aguardam ansiosamente o seu lançamento.

Categories: IT Info