Как DeepMind изменяют игровые правила машинного зрения

26 ноября 202526 ноя 2025

2 мин

Столкновение с весёлой шуткой о том, как нейросеть путает чихуахуа с маффином, лишь подчёркивает важность правильного распознавания объектов в компьютерном зрении. Для разработчиков мультимодальных агентов это была настоящая головная боль, ведь многие SOTA-модели, такие как Vision Transformers и CLIP, страдали от текстурного смещения, что мешало им адекватно воспринимать мир вокруг. Недавно Google DeepMind сделали важный шаг вперёд, представив метод, который изменяет подход к машинному зрению. Согласно их статье в журнале Nature, они нашли способ заставить модели мыслить о изображениях так же, как это делают люди. Текстурное смещение — это проблема, при которой модели «смотрят» на мир иначе, чем мы, фокусируясь на деталях текстуры и цвета, а не на сущности объектов. Например, если показать модели кошку, покрытую текстурой слоновьей кожи, она может принять её за слона. DeepMind доказали, что простая мощь, такая как увеличение количества слоёв или данных, не решает эту проблему: причина

Оглавление

Введение в проблему машинного зрения
Текущая ситуация в машинном зрении
Что такое текстурное смещение?

Введение в проблему машинного зрения

Текущая ситуация в машинном зрении

Недавно Google DeepMind сделали важный шаг вперёд, представив метод, который изменяет подход к машинному зрению. Согласно их статье в журнале Nature, они нашли способ заставить модели мыслить о изображениях так же, как это делают люди.

Что такое текстурное смещение?

Текстурное смещение — это проблема, при которой модели «смотрят» на мир иначе, чем мы, фокусируясь на деталях текстуры и цвета, а не на сущности объектов. Например, если показать модели кошку, покрытую текстурой слоновьей кожи, она может принять её за слона. DeepMind доказали, что простая мощь, такая как увеличение количества слоёв или данных, не решает эту проблему: причина кроется в системном различии в восприятии.

Метод DeepMind: выравнивание визуальных представлений

DeepMind разработали процесс выравнивания визуальных представлений, заключающийся в использовании когнитивного теста «Третий лишний» (Odd-One-Out). В эксперименте с триплетами изображений, например, с красным яблоком, зелёным яблоком и красным мячом, человеком легко определить лишний предмет. Но для стандартной модели до корректировки «лишним» оказывалось зелёное яблоко, так как она опирается на низкоуровневые характеристики предмета.

Как работает новая модель?

Новая модель DeepMind обучалась на миллионах триплетов, используя данные из когнитивной психологии. При этом нейросеть наказывали за неправильную группировку объектов по цвету вместо смысла. В результате новая модель уверенно идентифицировала мяч как лишний предмет в тестовых наборах, таким образом предотвращая ошибки в распознавании.

Преимущества и недостатки нового подхода

Главное преимущество этой технологии заключается в её способности снижать частоту «галлюцинаций зрения», то есть случаев, когда модель путает объекты только на основании их визуальных характеристик. Однако есть несколько нюансов, о которых реже упоминают: необходимость в большом количестве синтетических данных и возможность потери креативности, если модели будет навязано строгое человеческое восприятие.

Реальное применение и дальнейшие перспективы

Актуальность этой разработки сейчас подчеркивается также новыми достижениями в области AGI, такими как агент SIMA 2 от DeepMind, который способен распознавать объекты в 3D-пространстве. Разработка модели, выравненной по человеческому восприятию, становится ключевой составляющей для создания более «умных» роботов и автономных систем, способных лучше понимать окружающую действительность.

Заключение

Исходя из всех представленных данных, разработка DeepMind — это не просто очередное улучшение, а фундаментальный прорыв в машинном зрении, закрывающий баги в самом корне технологий. Это создаст новые возможности для увеличения точности и надежности выполнения различных задач. Ни одна из предыдущих моделей не могла достичь такого уровня понимания. Ключевым вопросом остаётся только одно: когда исследовательские данные станут доступны для широкой аудитории, чтобы технологии можно было интегрировать в реальные приложения.