
Китайская компания 4DV AI анонсировала новую технологию 4D Gaussian Splatting, которая кардинально меняет подход к видео.
Теперь стандартный 2D-ролик можно преобразовать в интерактивную 4D-сцену: пользователь сможет изменять угол обзора, приближать объекты и вращать камеру — прямо во время воспроизведения. Все это дополняется синхронизированным пространственным звуком, создающим эффект полного присутствия.
Читайте также: 10 лучших курсов по работе с нейросетями
Принцип работы 4D Gaussian Splatting и его возможности
Gaussian Splatting — это метод визуализации, при котором видео разбивается на «облака точек» с цветом, формой и координатами в 3D-пространстве. Новая разработка 4DV AI добавляет к этому временной аспект, позволяя создавать динамичные 4D-модели, основанные на обычных видеозаписях.
Эта технология функционирует в реальном времени: сцена пересобирается в зависимости от выбранного ракурса при каждом движении камеры. Продемонстрировать возможности можно на официальном сайте сервиса.
На практике это означает, что можно просматривать клип, документальный фильм или спортивный повтор и свободно перемещаться по сцене, приближаясь, отдаляясь или поворачиваясь, как в 3D-игре. Технология уже демонстрирует впечатляющую производительность — до 467 FPS на RTX 4090, с качеством визуализации, превышающим предыдущие решения на 2,4 dB (по PSNR).
4DV AI преобразует пассивный просмотр в активное исследование. Возможные сценарии использования:
- Кино и музыкальные клипы — зритель сам выбирает, на что обращать внимание.
- Образование — виртуальные экскурсии и лаборатории.
- Электронная коммерция — объемные презентации товаров.
- Спорт и события — повторы с любого ракурса.
- Музеи и архивы — реконструкция утраченных пространств.
- Судебная экспертиза — анализ событий с возможностью свободного просмотра.
Платформа функционирует прямо в браузере, без необходимости установки программного обеспечения, благодаря WebGL и движку PlayCanvas. Интерфейс больше напоминает редактор, чем стандартное технодемо: пользователь просто загружает видео (желательно 2K или 4K), система анализирует данные и создает управляемую сцену.
Ранее была представлена нейросеть Higgsfield Speak, которая позволяет создавать видео с ИИ-аватарами.

