Найти в Дзене
Черный Альманах

Ты обучаешься не туда

Одна из важнейших проблем, с которыми имеют дело нейросети - так называемое переобучение. Оно возникает, когда в попытке подогнать свою стратегию под обучающую выборку, нейросеть вместо того, чтобы сформировать адекватную модель анализа, которая хорошо сработает и на других выборках, пытается предложить модель, идеально описывающую обучающую выборку, но плохо работающую на любой другой.

Картинка из википедии, прекрасно описывающая разницу между переобученной и адекватно обученной моделью классификатора на красные и синие. Черным показана нормальная функция классификации, которая "видит" общую форму распределения и обладает предсказательной силой. Зеленая линия - граница переобученного классификатора, которая слишком сильно цепляется к локальным колебаниям. На другом распределении она будет ошибаться чаще.
Картинка из википедии, прекрасно описывающая разницу между переобученной и адекватно обученной моделью классификатора на красные и синие. Черным показана нормальная функция классификации, которая "видит" общую форму распределения и обладает предсказательной силой. Зеленая линия - граница переобученного классификатора, которая слишком сильно цепляется к локальным колебаниям. На другом распределении она будет ошибаться чаще.

Для тех, кому пример выше показался слишком сложным и абстрактным, сейчас приведу вариант попроще и нагляднее.

Представьте, что ваша задача определить логику, по которой распределяют ящики с бананами и яблоками на складе, чтобы затем продолжить работу на нём. При детальном подсчёте оказалось, что из 100 ящиков с яблоками, 98 лежат с левой стороны, а из 150 ящиков с бананами - 146 с правой. Логично предположить, что скорее всего правило распределения очень просто:
Яблоки - налево, бананы - направо.

Несовпадения с этим правилом можно объяснить банальной невнимательностью прошлого начальника склада или иными случайными факторами. Однако, если пытаться объяснить каждую деталь этого распределения, то можно прийти к выводу, что обязательно нужно 2% ящиков с яблоками класть направо, а 2,3% ящиков с яблоками - налево. Это кажется абсурдным, но именно так и работает переобучение: случайным деталям уделяется слишком большое значение

Какие выводы можно из этого сделать?

Во-первых, нужно понимать, что перфекционизм в анализе вреден. Мало того, что он сам по себе мешает жить спокойно и заставляет делать лишние операции при анализе (а на долгой дистанции это может оказаться очень серьезным минусом), так ещё и способен приводить к ошибочным выводам в анализе. Относиться к собственным и чужим ошибкам стоит снисходительнее (а в математическом смысле не стоит слишком сильно штрафовать модель за любое несовпадение с ожидаемым результатом).

Во-вторых, бритва Оккама никогда не бывает лишней. Хорошие модели, как правило просты и элегантны, и объясняют общие закономерности, а не локальные колебания. Чем меньше параметров у моделей при сходной предсказательной способности, тем она практичнее.

В-третьих, переобучение свойственно не только компьютерным нейросетям, но и биологическим. Например, так называемый синдром поиска глубинного смысла или СПГС, на основе которого строятся все теории заговора, служит отличным примером переобучения у людей. Можно сказать, что любой сильный травматический опыт также является случаем переобучения, когда один неудачный случай взаимодействия с реальностью становится основой стратегии поведения на долгие годы, тогда как в действительности, если попытаться объективно оценить вероятность удачного взаимодействия, окажется, что она существенно выше, чем кажется на первый взгляд. Впрочем, эту явление удобнее объяснять как раз с помощью циклов положительной обратной связи.

На мой взгляд, понимание этих принципов должно ложиться в основу общеобразовательных методов: учить важно общим принципам, а не деталям, которые могут легко поменяться за время обучения. Если целью образования является подготовка человека к жизни в обществе, то очень важно научиться спокойно относиться к ошибкам и делать акцент на получении общеполезных навыков, чтобы облегчить потенциальные переходы в новые ниши (в математическом смысле - смене тестовых выборок).