98 подписчиков

«Сыр» или «облако точек»: Как на самом деле машины с ИИ видят наш мир

24 апреля24 апр

3 мин

Вы когда-нибудь задумывались, глядя на умную камеру в телефоне или на беспилотный автомобиль: а что они реально видят? Мы привыкли думать, что если ИИ научился узнавать кошек на фото, то он видит их так же, как мы: усатая морда, хвост, мягкая шерсть. Спойлер: ничего подобного. Мир глазами нейросети больше похож на сюрреалистичный фильм ужасов и математический чертеж одновременно. Давайте разберемся, как «зрячие» алгоритмы обманывают сами себя. Первое, что нужно понять: камера — это не глаз. Она не видит «красоту заката», она видит матрицу чисел. Каждый пиксель — это три значения (RGB): от 0 до 255. Для ИИ изображение — это гигантская таблица Excel. Например, небо — это миллион ячеек с числом 200 (синий). Трава — это 50 (зеленый). Человек для камеры — просто скопление пикселей, которые резко отличаются по числам от пикселей стены позади него. Как это выглядит: Если вы когда-нибудь смотрели на старый плохой телевизор вблизи — вы видели гигантские квадраты пикселей. Только ИИ видит их все

Оглавление

1. Мир — это просто цифры (или «Сырная дыра»)
2. Карта глубины: Тень вместо объема
3. Эпилепсия признаков (или Слон в стиле Пикассо)

Вы когда-нибудь задумывались, глядя на умную камеру в телефоне или на беспилотный автомобиль: а что они реально видят? Мы привыкли думать, что если ИИ научился узнавать кошек на фото, то он видит их так же, как мы: усатая морда, хвост, мягкая шерсть.

Спойлер: ничего подобного. Мир глазами нейросети больше похож на сюрреалистичный фильм ужасов и математический чертеж одновременно. Давайте разберемся, как «зрячие» алгоритмы обманывают сами себя.

1. Мир — это просто цифры (или «Сырная дыра»)

Первое, что нужно понять: камера — это не глаз. Она не видит «красоту заката», она видит матрицу чисел. Каждый пиксель — это три значения (RGB): от 0 до 255.

Для ИИ изображение — это гигантская таблица Excel. Например, небо — это миллион ячеек с числом 200 (синий). Трава — это 50 (зеленый). Человек для камеры — просто скопление пикселей, которые резко отличаются по числам от пикселей стены позади него.

Как это выглядит: Если вы когда-нибудь смотрели на старый плохой телевизор вблизи — вы видели гигантские квадраты пикселей. Только ИИ видит их всегда, даже на самом крутом 4K-дисплее.

2. Карта глубины: Тень вместо объема

Настоящий шок для новичков: большинство «зрячих» машин — одноглазые. У обычной камеры (как в смартфоне или роботе-пылесосе) нет двух глаз, а значит, нет привычного бинокулярного зрения.

Как ИИ понимает, что одно яблоко ближе, а другое дальше? Он фокусируется на тенях и градиентах. Алгоритм выуживает из простой плоской картинки карту глубины.

Страшная метафора: Машина видит мир как барельеф, вылепленный из серого пластилина. Объем там есть, но он призрачный. Именно поэтому беспилотники иногда врезаются в белую фуру на фоне белого неба — для ИИ «белое» (нет контраста) означает «пустота».

3. Эпилепсия признаков (или Слон в стиле Пикассо)

Здесь начинается магия. Нейросеть, которая прошла обучение, разбивает картинку на слои признаков.

Первый слой: видит просто линии и углы (угол 45°, горизонтальная палка).
Второй слой: складывает линии в простые формы (круг, квадрат).
Третий слой: ищет комбинации (два круга + палка = глаза и нос).
Четвертый слой: понимает, что это «Лицо».

Но! Пока ИИ ищет лицо, он «видит» лица везде. В розетке на стене, в хаотичных пятнах мха, в облаках.

Эксперимент: На Западе проводили тест: показали нейросети картинку с клубникой, утыканной иголками. Человек видит ягоду и боль. ИИ видел просто «красное + много вертикальных линий врозь». Он бы спокойно съел такую клубнику, потому что не понимает угрозы тактильно.

4. Атака софтболами

Самый опасный нюанс. Мы думаем, что машинное зрение объективно. ЛОЖЬ. Машина видит только то, чему её научили ученые на примерах.

Знаменитый случай: Исследователи взяли картинку панды (ИИ говорил: «Панда, уверенность 98%»). Потом они чуть-чуть изменили шум на картинке — всего на 3% оттенков, глаз человека не заметил разницы. А ИИ вдруг закричал: «ГИББОН (обезьяна), уверенность 99%!».

То есть машина смотрит на идеальную панду, а видит обезьяну. Почему? Потому что текстура шума совпала с учебными примерами шерсти гиббона. ИИ не видит форму, он видит статистическое совпадение.

5. Тепловое зрение для бедных

Некоторые продвинутые системы (например, в автономных дронах или роботах-уборщиках) используют LiDAR (лазерный радар). Они вообще не видят картинку из камеры. Они видят облако точек — зеленое фосфоресцирующее поле на черном фоне.

Каждый объект (человек, стена, кот) — это скопление тысяч таких точек. Когда мы говорим «беспилотник объехал яму», на самом деле он объехал «отсутствие точек в координате X:Y».

Мы живем в разных вселенных

Человек видит контекст, смысл и эмоции («Девушка грустит под дождем»).
Машина видит значения переменных («Матрица 1920х1080: 40% синего сверху, 15% телесного посередине, высокая контрастность градиентов в правой нижней четверти»).

Поэтому, когда нейросеть рисует руки с 10 пальцами или странные зубы — это не «глюк». Это честное изображение того, как машина понимает реальность: как набор частот и паттернов, а не как логическую анатомию.