24 подписчика

Agentic Vision: Gemini 3 Flash научился «думать» над изображениями

28 января28 янв

1 мин

Google представил Agentic Vision — новую функцию модели Gemini 3 Flash, позволяющую проводить пошаговое исследование изображений вместо простого анализа. В отличие от предыдущих возможностей, когда модель могла упустить важные детали, теперь она самостоятельно определяет, какие области изображения требуют более пристального внимания. Эта технология основана на цикле "думай-действуй-наблюдай". Модель анализирует запрос, разрабатывает план действий, и затем использует Python для обработки изображения: обрезка, поворот, добавление пометок. Полученный результат используется для дальнейшего анализа, эффективно превращая изображение в интерактивную рабочую среду. Google демонстрирует возможности Agentic Vision на нескольких примерах. Платформа PlanCheckSolver для проверки строительных планов повысила точность на 5% благодаря итерационному увеличению масштаба. В приложении Gemini функция позволяет точно подсчитывать пальцы на фотографии, обводя их ограничивающими рамками. При работе с таблица

Эта технология основана на цикле "думай-действуй-наблюдай". Модель анализирует запрос, разрабатывает план действий, и затем использует Python для обработки изображения: обрезка, поворот, добавление пометок. Полученный результат используется для дальнейшего анализа, эффективно превращая изображение в интерактивную рабочую среду.

Google демонстрирует возможности Agentic Vision на нескольких примерах. Платформа PlanCheckSolver для проверки строительных планов повысила точность на 5% благодаря итерационному увеличению масштаба. В приложении Gemini функция позволяет точно подсчитывать пальцы на фотографии, обводя их ограничивающими рамками. При работе с таблицами модель создает графики в Matplotlib, представляя данные визуально, а не в текстовом формате.

Согласно Google, использование исполнения кода (code execution) обеспечивает стабильное увеличение результативности на 5–10% в большинстве визуальных тестов. Agentic Vision уже доступен через Gemini API в Google AI Studio и Vertex AI, а также интегрируется в приложение Gemini в режиме Thinking.

В общем, теперь компьютеры будут смотреть на картинки так же долго и подозрительно, как это делаем мы, люди, пытаясь понять, что же там на самом деле происходит.