Недавно сидел с коллегой в кафе, обсуждали очередную проблему с ML-моделью новой нейросети. И тут он говорит:
— Ты знаешь, я всегда думал, что цвет — это объективная штука. Красный он и в Африке красный.
Я чуть кофе не выплюнул. Парень пишет компьютерное зрение, а не понимает базовых вещей о восприятии... Хотя, честно? Сам я до определённого момента думал так же.
Когда глаза врут похлеще политиков
Начнём с простого. Помните эту знаменитую оптическую иллюзию с платьем? Одни видели синее с чёрным, другие — белое с золотым. Интернет чуть не взорвался от споров.
А всё дело в том, что наш мозг постоянно додумывает за нас. Он не просто получает сигналы от глаз — он их интерпретирует, корректирует, подгоняет под ожидания. И частенько... ошибается.
Вот вам пример покруче. Слепое пятно. У каждого из нас в глазу есть область, где зрительный нерв присоединяется к сетчатке. Никаких фоторецепторов там нет — значит, видеть мы там не можем. По идее, должны видеть чёрную дырку, правда?
Фиг там! Мозг аккуратно заполняет пробел, дорисовывает картинку. Мы даже не замечаем, что что-то не так. Я когда первый раз это осознал... такое ощущение, будто узнал, что живу в Матрице.
Уши тоже любят приврать
Со звуком история не лучше. Работал как-то над проектом с аудио-распознаванием — и наткнулся на эффект МакГурка. Суть простая: если видишь, как человек произносит один звук, а слышишь другой, то мозг выдаёт третий вариант.
— Ба-ба-ба, — говорят губы на экране.
— Га-га-га, — звучит из колонок.
— Да-да-да, — слышите вы.
Первый раз когда это попробовал — офигел конкретно. Закрываешь глаза — слышишь "га". Открываешь — "да". Магия? Да нет, просто мозг пытается быть умнее, чем есть.
И это ещё цветочки. Есть такая штука — фантомные слова. Берёшь обычный повторяющийся звук, слушаешь достаточно долго, и... начинаешь различать речь. Слова, которых там нет и в помине.
Когда нос подводит
Вкус и запах — отдельная песня. Помню, был в командировке в Азии. Захожу в местную забегаловку, заказываю что-то острое. Первый кусок — огонь во рту, слёзы градом. Через полчаса ем то же самое и... нормально. Вкусно даже.
Что произошло? Рецепторы адаптировались. Мозг решил: "Ладно, видимо, теперь это новая норма". И просто перекалибровался.
А вот ещё фишка. Большую часть того, что мы считаем вкусом, на самом деле запах. Зажмите нос и попробуйте яблоко с луком — не отличите. Не верите? Проверьте сами.
Почему всё это важно (кроме философских заморочек)
Окей, скажете вы, интересно, но причём тут технологии? При том, что мы постоянно создаём системы, которые должны "чувствовать" мир вместо нас или лучше нас.
Беспилотные машины. Они видят дорожные знаки, пешеходов, разметку. Но видят ли они их так же, как мы? А главное — стоит ли им видеть как мы, если наше зрение постоянно косячит?
Я участвовал в проекте по компьютерному зрению для медицины. Задача была — анализировать рентгеновские снимки. И знаете что? Система часто находила патологии, которые врачи пропускали. Не потому что врачи плохие, а потому что человеческий глаз — не оптический прибор. Он видит то, что ожидает увидеть.
VR и AR: когда обман становится фичей
Работаю сейчас над VR-проектом. И тут обман восприятия — это не баг, это фича. Надеваешь шлем, и мозг покупается на иллюзию. Картинка плоская, звук из наушников, а ты чувствуешь себя в другом мире.
Хотя... не всё так просто. Есть такая штука — motion sickness. Глаза говорят: "Мы движемся!", вестибулярный аппарат отвечает: "Да нет, стоим на месте". Мозг в панике: "Кого слушать?!" И начинается тошнота.
Приходится хитрить. Делать плавные переходы, добавлять виньетирование при поворотах, подстраиваться под особенности восприятия. По сути, мы создаём более убедительный обман.
Нейросети: попытка понять, как это работает
Любопытная штука — нейросети во многом повторяют принципы работы мозга. Те же свёрточные слои в CNN очень похожи на то, как работает зрительная кора. Сначала выделяем простые признаки (линии, углы), потом собираем их в более сложные объекты.
Но есть нюанс. Нейросети страдают от тех же проблем, что и мы. Adversarial examples — это когда добавляешь к изображению шум, незаметный для человека, а сеть начинает видеть совершенно другие объекты. Панду превращаешь в гиббона одним пикселем.
Получается, мы не только воспроизводим способности мозга, но и его косяки. Прогресс? Или мы просто застряли в тех же ловушках восприятия?
Что дальше?
Честно? Сам не знаю, что думать. Вроде бы круто, что мы понимаем, как восприятие работает — можем интерфейсы делать удобнее, системы распознавания точнее настраивать. VR-миры создавать, в которые хочется поверить.
Но с другой стороны... а может, не стоит с этим бороться? Может, просто принять как данность — что у каждого своя реальность? Я вижу синий, ты видишь голубой, и кто сказал, что мой синий правильнее?
Помните историю с платьем? Там не было правильного ответа. Был просто факт: люди видят по-разному. И это нормально.
Может, вместо того чтобы бороться с особенностями восприятия, стоит их принять? Создавать технологии, которые не игнорируют субъективность, а работают с ней?
Впрочем, это уже философия. А я всё-таки инженер. Мне проще верить в то, что можно измерить и воспроизвести.
Даже если эта вера — тоже иллюзия.
Если вам понравилась статья ставьте ЛАЙК и обязательно ПОДПИСЫВАЙТЕСЬ на канал!!!
Читайте также:
На Амазонке и правда нет ни одного моста: разбираем редкую загадку планеты
Ни тепла, ни кровати — но никто не мёрзнет: как древняя привычка помогает жить при -64 до сих пор