La empresa tecnológica china Meituan lanzó el lunes un nuevo modelo de vídeo con inteligencia artificial, LongCat-Video, que está disponible gratuitamente como software de código abierto.

Su potente modelo de 13.600 millones de parámetros genera vídeos de alta calidad de minutos de duración a partir de texto o imágenes, un salto significativo para la tecnología de código abierto. Lanzado en plataformas como GitHub, LongCat-Video desafía directamente los modelos propietarios de OpenAI y Google.

Meituan posiciona el lanzamiento como un paso clave hacia el desarrollo de”modelos mundiales”más avanzados al resolver problemas comunes como la pérdida de calidad en videos de IA de larga duración. La medida de Meituan hace que las herramientas creativas sofisticadas sean más accesibles para desarrolladores e investigadores de todo el mundo.

Una arquitectura unificada para vídeos de formato largo

En un movimiento significativo para la comunidad de código abierto, Meituan ha lanzado su generador de vídeo avanzado con IA, LongCat-Video, bajo una Licencia MIT permisiva. Construido sobre una poderosa arquitectura de transformador de difusión (DiT), el modelo de parámetros 13.6B adapta la tecnología de transformador que revolucionó los modelos de lenguaje para la compleja tarea de generación de video. Su arquitectura ofrece un marco unificado y versátil para los creadores.

El diseño central de Meituan LongCat maneja con capacidad tareas de conversión de texto a video, de imagen a video y de continuación de video dentro de un solo sistema. Para los usuarios, esto significa un proceso creativo más fluido e integrado.

Un creador podría comenzar con un mensaje de texto para generar una escena inicial, usar una imagen de referencia para animar a un personaje específico en esa escena y luego usar la continuación de video para extender la acción, todo sin cambiar entre diferentes herramientas.

🤯 Licencia MIT + Coherencia de 5 minutos + Aumento de velocidad 10x. Meituan acaba de abrir LongCat-Video (13.6B), un modelo base de video SOTA que es un serio contendiente para la carrera del Modelo Mundial.

🎥 El gran avance: genera de forma nativa videos continuos de hasta 5 minutos mediante un entrenamiento previo en… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27 de octubre de 2025

Al distinguir las tareas según el número de fotogramas iniciales proporcionados, el enfoque integrado del modelo permite una transición fluida entre diferentes modos creativos, agilizando el flujo de trabajo de producción.

Resolviendo el problema de la resistencia: vídeo de minutos de duración sin degradación

Aunque es propietario sistemas como Sora 2 de OpenAI han dominado recientemente los titulares, el enfoque de Meituan se centra en resolver uno de los desafíos más persistentes del video de IA: la duración.

Muchos modelos sufren una rápida disminución de la calidad, donde se pierde la coherencia temporal y los artefactos visuales se acumulan en tan solo unos pocos segundos. La característica destacada de LongCat-Video es su capacidad para generar videos estables de minutos de duración con una resolución fluida de 720p y 30 fotogramas por segundo.

Sus creadores atribuyen este avance al entrenamiento previo del modelo específicamente en tareas de continuación de video, lo que le enseña a mantener la coherencia a lo largo del tiempo. Según el equipo,”LongCat-Video está preentrenado de forma nativa en tareas de continuación de video, lo que le permite producir videos de minutos de duración sin pérdida de color ni degradación de la calidad”.

Al centrarse en la continuación, el modelo combate directamente la pérdida de color y la degradación de la imagen que a menudo afectan a los videos de IA, lo que garantiza que las narrativas más largas sigan siendo visualmente coherentes de principio a fin.

Para hacer esto En un proceso práctico computacionalmente intensivo, el modelo emplea varias técnicas centradas en la eficiencia. Como explica Meituan,”LongCat-Video genera vídeos de 720p y 30 fps en cuestión de minutos empleando una estrategia de generación de grueso a fino a lo largo de los ejes temporal y espacial”.

Su estrategia de grueso a fino (C2F) es un proceso de dos etapas: primero genera un”borrador”de menor resolución del vídeo y luego lo refina y mejora de forma inteligente, añadiendo detalles y textura.

Esto suele ser más rápido y produce mejores resultados que intentar generar un vídeo completo de alta resolución de una sola vez. Además, LongCat-Video utiliza Block Sparse Attention, una optimización inteligente que permite al modelo centrar su poder computacional en las partes más relevantes de la secuencia de video en lugar de procesar cada relación de píxeles, lo que reduce significativamente la carga de procesamiento.

Un contendiente de código abierto en la carrera de video de IA

El lanzamiento de Meituan el 27 de octubre convierte a LongCat-Video en una solución inmediata y formidable contendiente de código abierto en un campo dominado por sistemas cerrados.

Sus capacidades lo colocan en competencia directa con el modelo Veo 3.1 recientemente actualizado de Google y Sora 2 de OpenAI. El lanzamiento de Sora 2, si bien técnicamente impresionante, también provocó un amplio debate sobre los deepfakes y la seguridad de la IA, creando una apertura para una alternativa más transparente y centrada en los desarrolladores.

Métricas de rendimiento de informe técnico del modelo muestra que se mantiene firme. En el benchmark VBench 2.0, LongCat-Video logró una puntuación total del 62,11%. Superó notablemente a todos los competidores evaluados en la dimensión”Sentido común”con una puntuación del 70,94 %, lo que sugiere una fuerte comprensión del realismo físico y el movimiento plausible.

La empresa enmarca el proyecto como un movimiento estratégico hacia objetivos más ambiciosos.”La generación de vídeo es un camino fundamental hacia los modelos mundiales, con una inferencia eficiente de vídeo de larga duración como capacidad clave”, señaló el equipo de Meituan LongCat.

La visión de Meituan apunta hacia el desarrollo de”modelos mundiales”: sistemas de inteligencia artificial con una comprensión fundamental de la física, la causa y el efecto y la permanencia de los objetos que pueden simular la realidad. LongCat-Video representa un paso fundamental para expresar visualmente ese conocimiento simulado.

Además de sus poderosas capacidades, el gran tamaño del modelo es una importante barrera de hardware para investigadores y aficionados individuales. También quedan dudas persistentes sobre la procedencia del vasto conjunto de datos de video utilizado para la capacitación, un tema delicado en toda la industria de la IA generativa.

La medida de Meituan probablemente estimulará una mayor innovación en la comunidad de código abierto y aumentará la presión sobre los desarrolladores propietarios para ofrecer soluciones más accesibles.

A medida que los desarrolladores comiencen a integrar LongCat-Video en sus flujos de trabajo, su impacto en el mundo real en las industrias creativas y su La capacidad de traspasar los límites de la narración basada en IA será más clara.

Categories: IT Info