Статья рассказывает о новом крупном обновлении от Google DeepMind: у Gemini 3 Flash появилась способность Agentic Vision («агентная/интеллектуальная визуальная система»). Суть — модель перестаёт «одним взглядом угадывать, что на картинке», и начинает активно исследовать изображение, выполняя действия и проверяя гипотезы через исполнение кода (Python). Автор подаёт это как сдвиг парадигмы: от «догадок» к «мини‑расследованию». Что было раньше и что меняется По словам продакт‑менеджера DeepMind Рохана Доши, традиционные модели при работе с изображением часто действуют статично: видят картинку один раз, и если деталь мелкая (например, серийный номер на микросхеме или размытый дорожный знак вдали), модель нередко вынуждена угадывать. Agentic Vision вводит цикл Think–Act–Observe («подумай — сделай — посмотри результат»): В статье утверждается, что это дало скачок 5–10% на ряде визуальных бенчмарков. Практические примеры (как это выглядит в работе) 1) Масштабирование и инспекция мелких дета
Gemini 3 «открыл глаза» для пиксельного контроля: Google отвечает на DeepSeek OCR2
29 января29 янв
1
4 мин