Столкновение с весёлой шуткой о том, как нейросеть путает чихуахуа с маффином, лишь подчёркивает важность правильного распознавания объектов в компьютерном зрении. Для разработчиков мультимодальных агентов это была настоящая головная боль, ведь многие SOTA-модели, такие как Vision Transformers и CLIP, страдали от текстурного смещения, что мешало им адекватно воспринимать мир вокруг. Недавно Google DeepMind сделали важный шаг вперёд, представив метод, который изменяет подход к машинному зрению. Согласно их статье в журнале Nature, они нашли способ заставить модели мыслить о изображениях так же, как это делают люди. Текстурное смещение — это проблема, при которой модели «смотрят» на мир иначе, чем мы, фокусируясь на деталях текстуры и цвета, а не на сущности объектов. Например, если показать модели кошку, покрытую текстурой слоновьей кожи, она может принять её за слона. DeepMind доказали, что простая мощь, такая как увеличение количества слоёв или данных, не решает эту проблему: причина
Как DeepMind изменяют игровые правила машинного зрения
26 ноября 202526 ноя 2025
1
2 мин