
Google DeepMind представила SIMA 2 (Scalable Instructable Multiworld Agent) — второе поколение ИИ-агента для виртуальных 3D-миров. Обновленная версия строится на основе моделей Gemini 2 и способна действовать не в соответствии с заранее запланированными сценариями, а исходя из понимания поставленных задач.
Агент взаимодействует с пользователем через текст, голос или изображения, самостоятельно разрабатывает планы действий и может объяснить, почему принимает те или иные решения. Дополнительные сведения можно найти в материале Postium.
Читайте также: 10 лучших курсов по нейросетям
Возможности SIMA 2 и его работа
1. Совершенные рассуждения. SIMA 2 обучен достигать высокоуровневых целей — от «создать базу» до «достигнуть маяка» — и разбивать их на конкретные шаги. DeepMind отмечает, что агент теперь может самостоятельно планировать и анализировать свои действия, что делает его более похожим на партнёра, чем на простого исполнителя команд.
2. Обобщение навыков. ИИ демонстрирует способность переносить знания между различными играми и движками. Например, освоив механику «добычи» в No Man’s Sky, он применяет аналогичные принципы к «сбору урожая» в Valheim. В ходе тестирования агент успешно справляется с играми, с которыми раньше не сталкивался, такими как Goat Simulator 3, Teardown, Hydroneer и другими.
3. Самообучение. SIMA 2 обучается через пробы и ошибки, получая обратную связь от Gemini. С каждой сессией агент улучшает свою стратегию и координацию, без необходимости в дополнительной разметке от людей. Это приближает систему к концепции «самообучающегося» искусственного интеллекта.
4. Мультимодальное взаимодействие. Пользователь может описать задачу текстом, голосом или показать на изображении нужный объект. Агент способен «осознать» контекст и выполнить инструкцию. В DeepMind подчеркивают, что это один из первых ИИ-агентов, который одновременно видит, слышит и разговаривает в интерактивной среде.
На данный момент SIMA 2 остается исследовательским проектом. Он используется внутри Google DeepMind и доступен партнёрским разработчикам для тестирования. Публичный релиз или открытый SDK пока не были анонсированы.
Почему это имеет значение?
Первая версия — SIMA 1, продемонстрированная весной 2024 года, могла выполнять инструкции в девяти играх, созданных партнёрскими студиями, включая No Man’s Sky, Teardown и Valheim. Однако SIMA 1 была ограничена «копированием действий» и не имела способности к рассуждениям.
SIMA 2 делает шаг к универсальному агенту: теперь она может обучаться без разметки, адаптироваться к новым мирам и объяснять логику своих решений.
DeepMind считает игры «оптимальной тренировочной площадкой» для будущих универсальных ИИ-агентов. Виртуальные миры позволяют агенту столкнуться с теми же задачами, что и в реальном мире — планирование, навигация, взаимодействие с объектами и решение проблем.
Опыт, приобретённый в играх, может быть применён в робототехнике, системах автономного управления или в продвинутых помощниках, которые действуют не по сценарию, а исходя из смысла.
Ранее World Labs запустила Marble — ИИ-генератор «реалистичных» 3D-миров.


