Skip to main content
Вышла LongCat-Video — нейросеть создаёт длинные видео

Команда LongCat из Meituan представила новую открытую видеомодель LongCat-Video — мощную архитектуру с 13,6 млрд параметров, которая может генерировать видео на основе текста, изображений и продолжать уже существующие ролики.

Основное достоинство — создание длинных видео. LongCat-Video способна создавать многоминутные ролики в формате 720p/30fps, обеспечивая связность сцен, цветовую стабильность и высокую детализацию — без деградации, которая часто возникает при длительной генерации. Postium собрал ключевые аспекты.

Читайте также: 5 нейросетей для бесплатной генерации видео

Что умеет нейросеть LongCat-Video

LongCat-Video представляет собой единую архитектуру, объединяющую три задачи:

  1. Text-to-Video — создание видеороликов на основе текстовых описаний.
  2. Image-to-Video — «оживление» статических изображений.
  3. Video-Continuation — продолжение видео, включая интерактивное продление по новым запросам.

Ранее каждую из этих задач решали различные модели, но теперь они объединены в одну — что упрощает использование и делает результаты более согласованными.

Как функционирует ИИ-модель LongCat-Video

  1. Архитектура DiT (Diffusion Transformer). Модель основана на плотной (dense) архитектуре без «смеси экспертов» (MoE). Это придаёт ей стабильность и предсказуемость при длительной генерации.
  2. Обучение на продолжении видео. В отличие от многих конкурентов, LongCat-Video изначально обучалась с акцентом на задачи Video Continuation. Это позволяет ей уверенно справляться с длинными роликами, не теряя связность кадров, не «дрейфуя» по цвету и не размывая детали.
  3. Быстрая генерация. Применяется Coarse-to-Fine pipeline — сначала создаётся грубая версия видео, затем происходит уточнение деталей. Кроме того, используется Block Sparse Attention, который оптимизирует память и ускоряет инференс на высоком разрешении. В результате получается 189 кадров 720p за 142 секунды на GPU H800 (примерно 16 шагов диффузии с Flash Attention 3).
  4. Повышение качества через RLHF. Обучение проводилось с подкреплением с использованием метода GRPO (Generalized Rank Preference Optimization) — того же, что использовался в BLIP3o-NEXT. Это форма RLHF, которая помогает модели выбирать визуально более правдоподобные и «человеческие» результаты.

Почему это имеет значение? LongCat-Video приближает открытые модели к уровню коммерческих генераторов, таких как Runway Gen-3, Pika и Kling AI.

По качеству и стабильности она уже достигает уровня лидера опенсорса WAN 2.2, но выигрывает в компактности (13,6B против 28B у WAN) и универсальности — одна модель вместо трёх.

Это также важный шаг к «world models» — нейросетям, способным понимать динамику окружающего мира, а не просто создавать кадры по описанию. До появления LongCat-Video в открытом сегменте видеогенерации доминировали WAN 2.2 (от ByteDance) и VideoCrafter 2, но обе ограничены короткими клипами и требуют отдельных моделей для различных задач.

Доступность: Модель полностью открыта и бесплатна:

  • Лицензия: MIT.
  • Исходный код и веса: доступны на GitHub и Hugging Face.
  • Поддержка фреймворков: PyTorch, FlashAttention 2/3, xFormers.
  • Примеры использования: готовые скрипты для генерации по тексту, изображению и продолжения видео.

Итог: LongCat-Video поднимает опенсорс-видеогенерацию на новый уровень — одна модель создаёт и продолжает длинные ролики без потери качества. Это шаг к «world models» — нейросетям, которые понимают динамику мира, а не просто строят кадры на основе описаний.

Ранее Tencent запустила нейросеть Hunyuan World 1.1 для создания 3D-сцен.

Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий