
Компания Qwen представила Qwen-Robot Suite — коллекцию ИИ-моделей для роботов и систем, предназначенных для выполнения команд в реальном мире. Эти модели не только распознают объекты, но и помогают определять следующие действия.
В состав набора вошли три модели: Qwen-RobotNav для навигации, Qwen-RobotManip для манипуляций и Qwen-RobotWorld для предсказания изменений в сцене. Условия доступа к самим моделям Qwen не разгласила. Однако компания представила экспериментальную демонстрацию Chat2Robot, но пока только для Qwen-RobotManip. Подробнее об этом можно узнать в материале Postium.
Также читайте: 20 лучших ИИ-агентов для работы
Qwen-Robot Suite: что это такое и как работает
На данный момент большинство продуктов ИИ функционирует в чатах, редакторах, браузерах или средах разработки. Qwen-Robot Suite ориентирован на другой тип задач — когда системе необходимо связать команды человека с движением в реальном пространстве.
— Qwen-RobotNav отвечает за перемещение. Эта модель предназначена для того, чтобы помочь системе передвигаться к заданной точке, находить объекты, следовать инструкциям, отслеживать цели или функционировать в режиме автономного вождения.
— Qwen-RobotManip отвечает за взаимодействие с объектами. Это уже не просто «понять, что изображено», а выбрать действие: куда потянуть, как повернуть, что взять и что отпустить.
— Qwen-RobotWorld необходима для предсказаний. Эта модель должна осознавать, что произойдет после выполнения действия: как изменится сцена, куда переместится объект и что может пойти не так.
С анонсом Qwen также представила Chat2Robot — демонстрацию, где команду роботу можно ввести прямо в браузере. В настоящее время она работает только с Qwen-RobotManip и ограничена 50 задачами из RoboTwin-Clean.
Вместе эти модели формируют единый слой задач: навигацию, действия и прогнозирование.
Почему это имеет значение? У чат-ботов уже имеются мощные языковые и визуальные модели, но с физическим миром все более сложно. Роботу недостаточно просто распознать объект. Ему необходимо перемещаться, помнить цель, учитывать данные с камеры, пространство и последствия своих действий. Qwen демонстрирует, как крупные команды ИИ начинают разрабатывать отдельные модели для таких задач.
Итог: Qwen выпустила модели для управления роботами через текстовые команды, но пока представляет их в формате ограниченной демонстрации.


