Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики

Команда LongCat из Meituan представила новую открытую видеомодель LongCat-Video — мощную архитектуру с 13,6 млрд параметров, которая может генерировать видео на основе текста, изображений и продолжать уже существующие ролики.

Основное достоинство — создание длинных видео. LongCat-Video способна создавать многоминутные ролики в формате 720p/30fps, обеспечивая связность сцен, цветовую стабильность и высокую детализацию — без деградации, которая часто возникает при длительной генерации. Postium собрал ключевые аспекты.

Читайте также: 5 нейросетей для бесплатной генерации видео

Что умеет нейросеть LongCat-Video

LongCat-Video представляет собой единую архитектуру, объединяющую три задачи:

Text-to-Video — создание видеороликов на основе текстовых описаний.
Image-to-Video — «оживление» статических изображений.
Video-Continuation — продолжение видео, включая интерактивное продление по новым запросам.

Ранее каждую из этих задач решали различные модели, но теперь они объединены в одну — что упрощает использование и делает результаты более согласованными.

Как функционирует ИИ-модель LongCat-Video

Архитектура DiT (Diffusion Transformer). Модель основана на плотной (dense) архитектуре без «смеси экспертов» (MoE). Это придаёт ей стабильность и предсказуемость при длительной генерации.
Обучение на продолжении видео. В отличие от многих конкурентов, LongCat-Video изначально обучалась с акцентом на задачи Video Continuation. Это позволяет ей уверенно справляться с длинными роликами, не теряя связность кадров, не «дрейфуя» по цвету и не размывая детали.
Быстрая генерация. Применяется Coarse-to-Fine pipeline — сначала создаётся грубая версия видео, затем происходит уточнение деталей. Кроме того, используется Block Sparse Attention, который оптимизирует память и ускоряет инференс на высоком разрешении. В результате получается 189 кадров 720p за 142 секунды на GPU H800 (примерно 16 шагов диффузии с Flash Attention 3).
Повышение качества через RLHF. Обучение проводилось с подкреплением с использованием метода GRPO (Generalized Rank Preference Optimization) — того же, что использовался в BLIP3o-NEXT. Это форма RLHF, которая помогает модели выбирать визуально более правдоподобные и «человеческие» результаты.

Почему это имеет значение? LongCat-Video приближает открытые модели к уровню коммерческих генераторов, таких как Runway Gen-3, Pika и Kling AI.

По качеству и стабильности она уже достигает уровня лидера опенсорса WAN 2.2, но выигрывает в компактности (13,6B против 28B у WAN) и универсальности — одна модель вместо трёх.

Это также важный шаг к «world models» — нейросетям, способным понимать динамику окружающего мира, а не просто создавать кадры по описанию. До появления LongCat-Video в открытом сегменте видеогенерации доминировали WAN 2.2 (от ByteDance) и VideoCrafter 2, но обе ограничены короткими клипами и требуют отдельных моделей для различных задач.

Доступность: Модель полностью открыта и бесплатна:

Лицензия: MIT.
Исходный код и веса: доступны на GitHub и Hugging Face.
Поддержка фреймворков: PyTorch, FlashAttention 2/3, xFormers.
Примеры использования: готовые скрипты для генерации по тексту, изображению и продолжения видео.

Итог: LongCat-Video поднимает опенсорс-видеогенерацию на новый уровень — одна модель создаёт и продолжает длинные ролики без потери качества. Это шаг к «world models» — нейросетям, которые понимают динамику мира, а не просто строят кадры на основе описаний.

Ранее Tencent запустила нейросеть Hunyuan World 1.1 для создания 3D-сцен.

Тэги Нейросети

Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики

Что умеет нейросеть LongCat-Video

Как функционирует ИИ-модель LongCat-Video

Популярные новости

Китайские ученые сделали ночное видение полноцветным

Microsoft повысила цены на Xbox Series S и X

Утвержден список приложений для предустановки на 2027 год

UserGate зафиксировал рост российского рынка SOC на 15-30%

Башня BT Tower посреди Лондона — «секретный» небоскреб, которого никогда не существовало

Последние новости

Китайские ученые сделали ночное видение полноцветным

Microsoft повысила цены на Xbox Series S и X

Утвержден список приложений для предустановки на 2027 год

UserGate зафиксировал рост российского рынка SOC на 15-30%

Башня BT Tower посреди Лондона — «секретный» небоскреб, которого никогда не существовало

НазадYASA представила мотор-колесо с рекордными показателями: 750 кВт при весе 12 кг

Далее58 тыс. Android-устройств заразились трояном в Telegram

Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики

Что умеет нейросеть LongCat-Video

Как функционирует ИИ-модель LongCat-Video

Популярные новости

Последние новости

НазадYASA представила мотор-колесо с рекордными показателями: 750 кВт при весе 12 кг

Далее58 тыс. Android-устройств заразились трояном в Telegram

Лучшее от AllWeb.ru

«VK Видео» и «VK Музыка» есть в 20% новых китайских авто в РФ

Сервис такси «Икс Кар» выходит в Москву с намерением занять 20% рынка

Microsoft откроет крупнейший дата-центр в Индии