Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Agentic Vision в Gemini — что это и как работает

Компания Google представила Agentic Vision — новую возможность для Gemini, позволяющую модели не просто «смотреть» на картинку, а взаимодействовать с ней: увеличивать детали, вырезать элементы и перепроверять выводы на основании видимого контента.

Эта функция уже доступна для разработчиков через API Gemini в Google AI Studio и Vertex AI. В приложении Gemini инструмент Agentic Vision начинает появляться при выборе режима «Thinking» — его внедрение происходит постепенно. Подробности можно найти в материале Postium.

Также читайте: Нейросети для распознавания текста на фотографиях

Agentic Vision в Gemini — что это и как функционирует

Agentic Vision меняет подход к визуальному анализу. Вместо одного прохода по изображению модель действует итеративно: создает план, выполняет действие с визуальным входом и повторно анализирует результат.

В качестве «действий» применяется выполнение кода — Gemini может самостоятельно сгенерировать Python-код для увеличения области картинки, обрезки, поворота, разметки, подсчета объектов или извлечения данных, а затем предоставить ответ.

Основная идея — не предполагать, а проверять. Если на изображении находятся мелкие цифры, подписи или плотные таблицы, модель сначала увеличивает нужный участок и только потом формирует вывод.

Ранее мультимодальные модели часто допускали ошибки на мелких деталях и сложных визуальных данных, так как «смотрели» на изображение целиком. Agentic Vision добавляет промежуточные шаги и вычисления, что делает ответы более проверяемыми.

Как использовать

Разработчикам необходимо активировать инструмент Code Execution в AI Studio или воспользоваться API через Vertex AI — после этого нейросеть сможет самостоятельно выполнять визуальные операции.

В приложении Gemini функция доступна через выбор модели и режим «Thinking», без дополнительных настроек.

Почему это важно? Agentic Vision — это переход от «угадывания» к более точному анализу изображений. В задачах, где ошибка в одной цифре может повлиять на результат — документы, схемы, таблицы, визуальная математика — возможность увеличивать и пересчитывать важнее, чем красивый, но неточный ответ.

Таким образом, Google обучает ИИ-модель не просто принимать информацию, а активно искать недостающие элементы в предоставленных файлах, конкурируя с решениями от OpenAI и Anthropic в точности «зрения».

Итог: Gemini получила «активное зрение»: модель теперь самостоятельно увеличивает, обрабатывает и проверяет изображения, что значительно повышает точность анализа визуальных данных.

Тэги Gemini Google Нейросети

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Agentic Vision в Gemini — что это и как функционирует

Как использовать

Популярные новости

Как скачать и установить Codex на ПК — гайд для macOS и Windows

По «Ведьмаку» выпустят кооперативный экшен-RPG

В РФ заработал стандарт по ИИ-мониторингу состояния водителя

Selectel запустил сервис аварийного восстановления инфраструктуры

ИИ в «Сбере» обрабатывает 65% обращений

Последние новости

Как скачать и установить Codex на ПК — гайд для macOS и Windows

По «Ведьмаку» выпустят кооперативный экшен-RPG

В РФ заработал стандарт по ИИ-мониторингу состояния водителя

Selectel запустил сервис аварийного восстановления инфраструктуры

ИИ в «Сбере» обрабатывает 65% обращений

НазадИнициатива «Хватит убивать видеоигры» собрала более 1 млн подписей

ДалееSamsung выпустит 1 млн Galaxy Wide Fold

Google представила Agentic Vision — Gemini научилась «зумить» изображения для точного анализа

Agentic Vision в Gemini — что это и как функционирует

Как использовать

Популярные новости

Последние новости

НазадИнициатива «Хватит убивать видеоигры» собрала более 1 млн подписей

ДалееSamsung выпустит 1 млн Galaxy Wide Fold

Лучшее от AllWeb.ru

Как набрать подписчиков в группу ВК — от 0 до 1 млн

Завод «ЦТС» произвел первую партию российских приставок

«Яндекс» запустил приложение «Календарь»