Найти в Дзене
Черный Альманах

Опасная обратная связь

В прошлых статьях мы говорили об обучении как о процессе адаптации нейросети. Иначе говоря, в ходе обучения меняется стратегия принятия решений, и поскольку люди учатся постоянно, любая реакция на их поведение служит основой для обучения. В частности, процесс общения всегда является процессом обучения. Настало время взглянуть на эффект обратной связи более детально. Представим следующую ситуацию Нейросеть учится принимать решение о том, закрашивать квадрат зеленым узором или нет, и если да, то как. Иначе говоря, стоит задача: научиться красить правильно или не красить совсем. Если штраф за неправильно нанесённый узор очень велик, то с большой вероятностью решение "не красить" станет относительно простым и выгодным, а значит нейросеть перестанет даже красить. В то же время, если при этом закрашивание оценивать выше, то нейросеть с каждой эпохой обучения будет получать всё больше и больше правильных результатов и в конце концов станет закрашивать почти все квадраты.
Если же штрафовать

В прошлых статьях мы говорили об обучении как о процессе адаптации нейросети. Иначе говоря, в ходе обучения меняется стратегия принятия решений, и поскольку люди учатся постоянно, любая реакция на их поведение служит основой для обучения. В частности, процесс общения всегда является процессом обучения. Настало время взглянуть на эффект обратной связи более детально.

Представим следующую ситуацию

Нейросеть учится принимать решение о том, закрашивать квадрат зеленым узором или нет, и если да, то как. Иначе говоря, стоит задача: научиться красить правильно или не красить совсем. Если штраф за неправильно нанесённый узор очень велик, то с большой вероятностью решение "не красить" станет относительно простым и выгодным, а значит нейросеть перестанет даже красить. В то же время, если при этом закрашивание оценивать выше, то нейросеть с каждой эпохой обучения будет получать всё больше и больше правильных результатов и в конце концов станет закрашивать почти все квадраты.

Если же штрафовать смену стратегии, то есть вводить отбор на консервативность, то такая нейросеть в конечном счёте будет склоняться к одному из двух вариантов.
Таков общий вид действия положительной обратной связи. Подобные системы очень приятны нашему мозгу потому что приводят к наиболее простым, а, значит, и экономным решениям. Заметьте, что само наличие выбора понижает уверенность в одной из стратегий.
Таков общий вид действия положительной обратной связи. Подобные системы очень приятны нашему мозгу потому что приводят к наиболее простым, а, значит, и экономным решениям. Заметьте, что само наличие выбора понижает уверенность в одной из стратегий.

Возможно, этот пример покажется вам не самым понятным, но зато он иллюстрирует фундаментальный механизм обучения, который встречается в нашей жизни очень часто, стоит только присмотреться повнимательнее. Например

Человек собирается научиться рисованию. Первый месяц у него хватает запала работать над собой, несмотря на количество ошибок, однако дальше, если он не дождётся успехов, он станет заниматься рисованием всё реже и его уровень перестанет расти, а потом может даже начать падать. В то же время, если у него будет получаться всё лучше и лучше, преподаватели и близкие будут хвалить его, а перспектива монетизации будет вырисовываться всё более явно, то со временем этот человек сможет стать профессионалом, а может и гениальным творцом своего времени, если, конечно, он будет располагать хорошими навыками.

Думаю, продемонстрировать широту этого метода можно ещё парой примеров.

Гнев вызывает в контроле трудности, и потому часто встаёт вопрос о том, подавить гнев или выпустить его. Если окружающие жестко порицают его за подавление гнева, он всё чаще подавляет свой гнев и, поскольку время от времени гнев вырывается на волю, а навыков управления гневом не развилось, то получается неконтролируемая вспышка, которая лишь убеждает человека в том, что гнев очень плохой и его нужно подавлять. С другой стороны, если гнев окажется полезным, то человек со временем научится им управлять и станет делать это ситуативно, а, значит, проблем с контролем гнева у него не будет

Наконец, наиболее простой для восприятия пример будет таким.

Стеснительный парень сомневается, стоит ли ему подойти познакомиться с приятной ему девушкой. Если он получит позитивный результат, он убедит себя в том, что надо и дальше действовать смелее. В конечном счёте, он начнёт вести себя уверенно в общении с девушками практически всегда. В обратном случае, он убедится в том, что это знакомство с девушками - слишком сложное дело, сделает ставки на другое и, если ему и дальше не будет везти в этой теме, будет стесняться всё больше и больше.

Подобные циклы положительной обратной связи укрепляют веру в изначальное убеждение, а потому способны формировать как и очень глубинные предрассудки, мешая человеку достигать своих целей, так и делать из него первоклассного специалиста. К сожалению, первое встречается куда чаще, и, приводит к чувству обреченности, однако, в большинстве случаев всё исправимо.

Один и тот же механизм может приводить к абсолютно противоположным точкам зрения
Один и тот же механизм может приводить к абсолютно противоположным точкам зрения

Выход из циклов обратной связи лежит через их колебательную природу: в какой-то момент мы сомневаемся в собственной правоте и пробуем снова, чтобы укрепить свою уверенность в собственной правоте, неважно, насколько она оптимистична. Если в этот момент оказать на человека сильное воздействие, можно подтолкнуть его в сторону другого цикла. Несколько успешных попыток подряд подорвут веру в неизбежность собственной безуспешности, и тогда появится возможность перейти в цикл компетентности.

Любая компетентность работает по такому принципу, но изначально мы рождаемся не компетентными ни в чём. Чем более комфортные для обучения условия сформированы близкими людьми, тем больше вероятность того, что обучение пройдет мягко и мы сможем научиться чему-то, перейдя в цикл компетенции. Именно поэтому в некоторых случаях для обучения очень нужны "тепличные условия": в них с большей вероятностью удастся преодолеть первичный страх ошибки.

Напротив, жесткие условия часто укрепляют убежденность людей в собственной вере: таков механизм борьбы нашего мозга с повышенной тревогой. И даже если изначально убежденность в идеалах была разумной, радикализация мнения сильно искажает адекватность любого поведения. С другой стороны, иногда радикализация приводит к развитию определенных навыков, поэтому сама по себе она имеет и позитивные последствия. Другой вопрос, что за эти навыки приходится платить чем-то другим.

Конечно, нет смысла стремиться стать специалистом во всём - абсолютно нормально ничего не уметь в большей части сфер жизни: человечество добилось успеха именно за счёт разделения труда. Однако, некоторые навыки будут полезны практически в любой работе. И сколько бы навыков вы не развили, если вы добьетесь компетентности в области расстановки собственных приоритетов, то не будете чувствовать себя растерянными от слишком широкого выбора.

Обратная связь - очень важная часть нашей жизни, ведь она определяет адекватность нашего обучения. Впрочем, анализировать обратную связь всегда стоит с некой долей скепсиса, потому что существует феномен переобучения, о котором мы поговорим во следующей части этого цикла (положительной обратной связи, да).