
Команда LongCat из Meituan представила новую открытую видеомодель LongCat-Video — мощную архитектуру с 13,6 млрд параметров, которая может генерировать видео на основе текста, изображений и продолжать уже существующие ролики.
Основное достоинство — создание длинных видео. LongCat-Video способна создавать многоминутные ролики в формате 720p/30fps, обеспечивая связность сцен, цветовую стабильность и высокую детализацию — без деградации, которая часто возникает при длительной генерации. Postium собрал ключевые аспекты.
Читайте также: 5 нейросетей для бесплатной генерации видео
Что умеет нейросеть LongCat-Video
LongCat-Video представляет собой единую архитектуру, объединяющую три задачи:
- Text-to-Video — создание видеороликов на основе текстовых описаний.
- Image-to-Video — «оживление» статических изображений.
- Video-Continuation — продолжение видео, включая интерактивное продление по новым запросам.
Ранее каждую из этих задач решали различные модели, но теперь они объединены в одну — что упрощает использование и делает результаты более согласованными.
Как функционирует ИИ-модель LongCat-Video
- Архитектура DiT (Diffusion Transformer). Модель основана на плотной (dense) архитектуре без «смеси экспертов» (MoE). Это придаёт ей стабильность и предсказуемость при длительной генерации.
- Обучение на продолжении видео. В отличие от многих конкурентов, LongCat-Video изначально обучалась с акцентом на задачи Video Continuation. Это позволяет ей уверенно справляться с длинными роликами, не теряя связность кадров, не «дрейфуя» по цвету и не размывая детали.
- Быстрая генерация. Применяется Coarse-to-Fine pipeline — сначала создаётся грубая версия видео, затем происходит уточнение деталей. Кроме того, используется Block Sparse Attention, который оптимизирует память и ускоряет инференс на высоком разрешении. В результате получается 189 кадров 720p за 142 секунды на GPU H800 (примерно 16 шагов диффузии с Flash Attention 3).
- Повышение качества через RLHF. Обучение проводилось с подкреплением с использованием метода GRPO (Generalized Rank Preference Optimization) — того же, что использовался в BLIP3o-NEXT. Это форма RLHF, которая помогает модели выбирать визуально более правдоподобные и «человеческие» результаты.
Почему это имеет значение? LongCat-Video приближает открытые модели к уровню коммерческих генераторов, таких как Runway Gen-3, Pika и Kling AI.
По качеству и стабильности она уже достигает уровня лидера опенсорса WAN 2.2, но выигрывает в компактности (13,6B против 28B у WAN) и универсальности — одна модель вместо трёх.
Это также важный шаг к «world models» — нейросетям, способным понимать динамику окружающего мира, а не просто создавать кадры по описанию. До появления LongCat-Video в открытом сегменте видеогенерации доминировали WAN 2.2 (от ByteDance) и VideoCrafter 2, но обе ограничены короткими клипами и требуют отдельных моделей для различных задач.
Доступность: Модель полностью открыта и бесплатна:
- Лицензия: MIT.
- Исходный код и веса: доступны на GitHub и Hugging Face.
- Поддержка фреймворков: PyTorch, FlashAttention 2/3, xFormers.
- Примеры использования: готовые скрипты для генерации по тексту, изображению и продолжения видео.
Итог: LongCat-Video поднимает опенсорс-видеогенерацию на новый уровень — одна модель создаёт и продолжает длинные ролики без потери качества. Это шаг к «world models» — нейросетям, которые понимают динамику мира, а не просто строят кадры на основе описаний.
Ранее Tencent запустила нейросеть Hunyuan World 1.1 для создания 3D-сцен.


