A empresa de tecnologia chinesa Meituan lançou um novo modelo de vídeo de IA, LongCat-Video, na segunda-feira, disponibilizando-o gratuitamente como software de código aberto.

Seu poderoso modelo de 13,6 bilhões de parâmetros gera vídeos de alta qualidade com minutos de duração a partir de texto ou imagens, um salto significativo para a tecnologia de código aberto. Lançado em plataformas como o GitHub, o LongCat-Video desafia diretamente os modelos proprietários da OpenAI e do Google.

A Meituan posiciona o lançamento como um passo fundamental para o desenvolvimento de “modelos mundiais” mais avançados, resolvendo problemas comuns como perda de qualidade em vídeos de IA de longa duração. A decisão da Meituan torna ferramentas criativas sofisticadas mais acessíveis para desenvolvedores e pesquisadores em todo o mundo.

Uma arquitetura unificada para vídeos de formato longo

Em um movimento significativo para a comunidade de código aberto, a Meituan lançou seu gerador de vídeo de IA avançado, LongCat-Video, sob uma licença licença permissiva do MIT. Construído em uma poderosa arquitetura Diffusion Transformer (DiT), o modelo de parâmetro 13,6B adapta a tecnologia de transformador que revolucionou os modelos de linguagem para a complexa tarefa de geração de vídeo. Sua arquitetura oferece uma estrutura versátil e unificada para criadores.

O design central do Meituan LongCat lida habilmente com tarefas de texto para vídeo, imagem para vídeo e continuação de vídeo em um único sistema. Para os usuários, isso significa um processo criativo mais fluido e integrado.

Um criador pode começar com um prompt de texto para gerar uma cena inicial, usar uma imagem de referência para animar um personagem específico naquela cena e, em seguida, usar a continuação do vídeo para estender a ação, tudo sem alternar entre ferramentas diferentes.

🤯 Licença MIT + Coerência de 5 minutos + Aumento de velocidade de 10x. A Meituan acaba de abrir o código-fonte do LongCat-Video (13.6B), um modelo básico de vídeo SOTA que é um sério candidato à corrida do modelo mundial.

🎥 A inovação: gera nativamente vídeos contínuos de até 5 minutos por meio de pré-treinamento em… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27 de outubro de 2025

Ao distinguir tarefas com base no número de quadros iniciais fornecidos, a abordagem integrada do modelo permite uma transição perfeita entre diferentes modos criativos, agilizando o fluxo de trabalho de produção.

Resolvendo o problema de resistência: vídeo de minutos sem degradação

Embora sejam sistemas proprietários assim como o Sora 2 da OpenAI que recentemente dominou as manchetes, a abordagem da Meituan se concentra em resolver um dos desafios mais persistentes do vídeo de IA: a duração.

Muitos modelos sofrem com uma rápida queda na qualidade, onde a coerência temporal é perdida e os artefatos visuais se acumulam em apenas alguns segundos. O recurso de destaque do LongCat-Video é sua capacidade de gerar vídeos estáveis, com minutos de duração, em uma resolução suave de 720p e 30 quadros por segundo.

Seus criadores atribuem essa inovação ao pré-treinamento do modelo especificamente em tarefas de continuação de vídeo, o que o ensina a manter a consistência ao longo do tempo. De acordo com a equipe, “o LongCat-Video é nativamente pré-treinado em tarefas de continuação de vídeo, o que permite produzir vídeos de minutos de duração sem desvios de cores ou degradação de qualidade”. Prático de processo computacionalmente intensivo, o modelo emprega diversas técnicas focadas na eficiência. Como explica Meituan, “LongCat-Video gera vídeos de 720p e 30fps em minutos, empregando uma estratégia de geração grosseira a fina ao longo dos eixos temporal e espacial.”textura.

Isso geralmente é mais rápido e produz melhores resultados do que tentar gerar um vídeo completo de alta resolução de uma só vez. Além disso, o LongCat-Video usa Block Sparse Attention, uma otimização inteligente que permite ao modelo concentrar seu poder computacional nas partes mais relevantes da sequência de vídeo, em vez de processar cada relação de pixel, reduzindo significativamente a carga de processamento.

Um concorrente de código aberto na corrida de vídeo de IA

O lançamento do Meituan em 27 de outubro torna o LongCat-Video um concorrente imediato e formidável de código aberto em um campo dominado por sistemas fechados.

Suas capacidades o colocam em concorrência direta com o modelo Veo 3.1 recentemente atualizado do Google e o Sora 2 da OpenAI. O lançamento do Sora 2, embora tecnicamente impressionante, também gerou um amplo debate sobre deepfakes e segurança de IA, criando uma abertura para uma alternativa mais transparente e focada no desenvolvedor.

Métricas de desempenho do O relatório técnico do modelo mostra que ele se mantém. No benchmark VBench 2.0, LongCat-Video alcançou uma pontuação total de 62,11%. Superou notavelmente todos os concorrentes testados na dimensão “Senso Comum”, com uma pontuação de 70,94%, sugerindo uma forte compreensão do realismo físico e do movimento plausível.

A empresa enquadra o projeto como um movimento estratégico em direção a objetivos mais ambiciosos. “A geração de vídeo é um caminho crítico para modelos mundiais, com inferência eficiente de vídeos longos como uma capacidade chave”, observou a equipe Meituan LongCat.

A visão da Meituan aponta para o desenvolvimento de “modelos mundiais” – sistemas de IA com uma compreensão fundamental da física, causa e efeito e permanência de objetos que podem simular a realidade. O LongCat-Video representa uma etapa crítica na expressão visual desse conhecimento simulado.

Além de seus poderosos recursos, o grande tamanho do modelo é uma barreira de hardware significativa para pesquisadores individuais e amadores. Também permanecem questões persistentes sobre a origem do vasto conjunto de dados de vídeo usado para treinamento, um tema delicado em toda a indústria de IA generativa.

A medida da Meituan provavelmente estimulará mais inovação na comunidade de código aberto e aumentará a pressão sobre os desenvolvedores proprietários para oferecer soluções mais acessíveis.

À medida que os desenvolvedores começarem a integrar o LongCat-Video em seus fluxos de trabalho, seu impacto no mundo real nas indústrias criativas e sua a capacidade de ultrapassar os limites da narrativa baseada em IA ficará mais clara.

Categories: IT Info