
Китайская корпорация Alibaba анонсировала обновленную версию своей модели искусственного интеллекта Qwen2.5-VL, обладающую возможностью управлять компьютерами и смартфонами, анализировать документы, видео и изображения, а также генерировать код.
Пользователи могут бесплатно опробовать некоторые её функции на платформе Qwen Chat или скачать исходный код на сайте Hugging Face.
Смотрите также: 7 проверенных Телеграм-ботов с ChatGPT
Функционал ИИ-агента Qwen2.5-VL
Qwen2.5-VL превосходит такие аналоги, как GPT-4, в задачах анализа данных и работе с мультимедийным контентом, однако имеет ограничения по темам в соответствии с требованиями китайских регуляторов.
Основные возможности:
- Работа с изображениями и видео: модель способна анализировать графики и диаграммы, подсчитывать объекты на изображениях и распознавать сцены в видео длительностью более часа.
- Генерация кода: ИИ создает код на основе документов, разрабатывает HTML-страницы и форматы структурированных данных. Например, он может разметить объекты на дороге или классифицировать мотоциклистов по наличию шлемов.
- Управление устройствами: Qwen2.5-VL функционирует как ИИ-агент, управляющий приложениями на компьютерах и мобильных устройствах. В демонстрации модель бронирует билет через приложение Booking.com.
Модель доступна в нескольких вариантах. Младшие версии можно использовать по разрешительной лицензии, в то время как для флагманской модели Qwen2.5-VL-72B необходимо подать запрос на коммерческое использование, если у компании более 100 миллионов активных пользователей.
Запуск Qwen2.5-VL свидетельствует о том, что китайские компании активно развивают технологии искусственного интеллекта и стремятся конкурировать с такими лидерами рынка, как OpenAI и Google.
Ранее Alibaba представила ИИ-модели Qwen2.5-1M и Qwen2.5-Instruct-1M с открытым исходным кодом.