
Компания Google представила Agentic Vision — новую возможность для Gemini, позволяющую модели не просто «смотреть» на картинку, а взаимодействовать с ней: увеличивать детали, вырезать элементы и перепроверять выводы на основании видимого контента.
Эта функция уже доступна для разработчиков через API Gemini в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — его внедрение происходит постепенно. Подробности можно найти в материале Postium.
Также читайте: Нейросети для распознавания текста на фотографиях
Agentic Vision в Gemini — что это и как функционирует
Agentic Vision меняет подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: создает план, выполняет действие с визуальным входом и повторно анализирует результат.

В качестве «действий» применяется выполнение кода — Gemini может самостоятельно сгенерировать Python-код для увеличения области картинки, обрезки, поворота, разметки, подсчета объектов или извлечения данных, а затем предоставить ответ.
Основная идея — не предполагать, а проверять. Если на изображении находятся мелкие цифры, подписи или плотные таблицы, модель сначала увеличивает нужный участок и только потом формирует вывод.
Ранее мультимодальные модели часто допускали ошибки на мелких деталях и сложных визуальных данных, так как «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, что делает ответы более проверяемыми.
Как использовать
Разработчикам необходимо активировать инструмент Code Execution в AI Studio или воспользоваться API через Vertex AI — после этого нейросеть сможет самостоятельно выполнять визуальные операции.
В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.
Почему это важно? Agentic Vision — это переход от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре может повлиять на результат — документы, схемы, таблицы, визуальная математика — возможность увеличивать и пересчитывать важнее, чем красивый, но неточный ответ.
Таким образом, Google обучает ИИ-модель не просто принимать информацию, а активно искать недостающие элементы в предоставленных файлах, конкурируя с решениями от OpenAI и Anthropic в точности «зрения».
Итог: Gemini получила «активное зрение»: модель теперь самостоятельно увеличивает, обрабатывает и проверяет изображения, что значительно повышает точность анализа визуальных данных.


