Skip to main content
Agentic Vision в Gemini — что это и как работает

Компания Google представила Agentic Vision — новую возможность для Gemini, позволяющую модели не просто «смотреть» на картинку, а взаимодействовать с ней: увеличивать детали, вырезать элементы и перепроверять выводы на основании видимого контента.

Эта функция уже доступна для разработчиков через API Gemini в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — его внедрение происходит постепенно. Подробности можно найти в материале Postium.

Также читайте: Нейросети для распознавания текста на фотографиях

Agentic Vision в Gemini — что это и как функционирует

Agentic Vision меняет подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: создает план, выполняет действие с визуальным входом и повторно анализирует результат.

Agentic Vision в Gemini — что это и как работает

В качестве «действий» применяется выполнение кода — Gemini может самостоятельно сгенерировать Python-код для увеличения области картинки, обрезки, поворота, разметки, подсчета объектов или извлечения данных, а затем предоставить ответ.

Основная идея — не предполагать, а проверять. Если на изображении находятся мелкие цифры, подписи или плотные таблицы, модель сначала увеличивает нужный участок и только потом формирует вывод.

Ранее мультимодальные модели часто допускали ошибки на мелких деталях и сложных визуальных данных, так как «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, что делает ответы более проверяемыми.

Как использовать

Разработчикам необходимо активировать инструмент Code Execution в AI Studio или воспользоваться API через Vertex AI — после этого нейросеть сможет самостоятельно выполнять визуальные операции.

В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.

Почему это важно? Agentic Vision — это переход от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре может повлиять на результат — документы, схемы, таблицы, визуальная математика — возможность увеличивать и пересчитывать важнее, чем красивый, но неточный ответ.

Таким образом, Google обучает ИИ-модель не просто принимать информацию, а активно искать недостающие элементы в предоставленных файлах, конкурируя с решениями от OpenAI и Anthropic в точности «зрения».

Итог: Gemini получила «активное зрение»: модель теперь самостоятельно увеличивает, обрабатывает и проверяет изображения, что значительно повышает точность анализа визуальных данных.

Gemini Google Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий