Google представил Agentic Vision — новую функцию модели Gemini 3 Flash, позволяющую проводить пошаговое исследование изображений вместо простого анализа. В отличие от предыдущих возможностей, когда модель могла упустить важные детали, теперь она самостоятельно определяет, какие области изображения требуют более пристального внимания. Эта технология основана на цикле "думай-действуй-наблюдай". Модель анализирует запрос, разрабатывает план действий, и затем использует Python для обработки изображения: обрезка, поворот, добавление пометок. Полученный результат используется для дальнейшего анализа, эффективно превращая изображение в интерактивную рабочую среду. Google демонстрирует возможности Agentic Vision на нескольких примерах. Платформа PlanCheckSolver для проверки строительных планов повысила точность на 5% благодаря итерационному увеличению масштаба. В приложении Gemini функция позволяет точно подсчитывать пальцы на фотографии, обводя их ограничивающими рамками. При работе с таблица
Agentic Vision: Gemini 3 Flash научился «думать» над изображениями
28 января28 янв
1 мин