Google представил Gemini Omni — новую модель ИИ для создания и редактирования видео. Она способна работать с несколькими типами входных данных одновременно: текстом, изображениями, видео, аудио и референсами. Модель уже доступна в Flow — сервисе Google для создания видеороликов с помощью ИИ.
Gemini Omni позволяет создавать видео с аудиосопровождением, а также редактировать уже готовые сцены через обычный чат. Google демонстрирует сценарии, в которых пользователь загружает несколько фотографий, формулирует запрос и затем поэтапно изменяет результат: перестраивает сцену, меняет стиль, добавляет движения камеры или заменяет объекты в кадре. Подробности вы можете найти в материале Postium.
Читайте также: 7 лучших нейросетей для генерации видео
Нейросеть Gemini Omni — возможности и принцип работы
Gemini Omni — мультимодальная видеомодель в рамках экосистемы Gemini. Google представляет её не только как инструмент для создания роликов «с нуля», но и как систему для поэтапной доработки уже существующего материала.
Модель обладает следующими возможностями:
- генерировать видео на основе текста;
- создавать ролики из фотографий;
- использовать несколько референсов одновременно;
- редактировать уже готовые видео;
- сохранять персонажей и стиль в разных сценах;
- генерировать звук для ролика.
Google отдельно демонстрирует сценарий с image-to-video: пользователь загружает до пяти изображений, а модель объединяет их в единую сцену с движением и анимацией. Также поддерживаются многошаговые изменения через чат — без необходимости повторной генерации всего ролика после каждого изменения.
В отличие от Veo, который функционирует как text-to-video-модель, Omni Flash может использовать видео как исходный материал для дальнейшей генерации. Это является значительным сдвигом в целом ряде: Google переходит от создания «с нуля» к редактированию и модификации готового контента.
В Flow Gemini Omni интегрирована в редактор. Пользователь может загрузить исходные материалы, задать сцену текстом и продолжить работу через диалог: изменять композицию, освещение, движение камеры, детали окружения или объекты в кадре.
Google также демонстрирует работу с video-to-video: модель берет готовое видео и перестраивает его в соответствии с новым описанием, сохраняя основную структуру сцены.
Как использовать Gemini Omni Flash
Gemini Omni Flash уже доступна в Flow среди инструментов для генерации видео. Для работы можно загрузить фотографии, видео или референсы, а затем продолжить редактирование через текстовые запросы в чате.
Google пока не опубликовал полный список регионов и тарифов, где модель доступна без ограничений. На страницах сервиса компания указывает, что некоторые функции могут различаться в зависимости от страны и типа аккаунта.
Почему это важно? Flow всё меньше напоминает «генератор видео по тексту» и всё больше — полноценный ИИ-редактор. Пользователь может сохранять персонажей, визуальный стиль и композицию между правками, а не пытаться заново воспроизвести их новым запросом.
Для Google это также попытка объединить генерацию, монтаж и доработку видео в рамках одного сервиса. Вместе с Gemini Omni компания обновила сам Flow и добавила Flow Agent — ИИ-ассистента для работы над сценами и проектами.
Итог: Gemini Omni — новая модель ИИ от Google для видео. Она создает короткие ролики со звуком из текста, фотографий, видео и аудио, а также умеет редактировать готовые сцены.


