144 подписчика

Роботы и погоня за удовольствиями. ИИ так же страдает от зависимостей!

5 июня 20225 июн 2022

3 мин

В 1953 году гарвардский психолог решил, что случайно обнаружил центр удовольствий в черепе крысы. С помощью электрода, вставленного в определенную область мозга, крыса подавала импульс, потянув за рычаг. Оно продолжало возвращаться за добавкой: ненасытно, непрестанно, дергая за рычаг. На самом деле, крыса, казалось, не хотела делать ничего другого. По-видимому, центр вознаграждения в мозгу был обнаружен. Более 60 лет спустя, в 2016 году, пара исследователей искусственного интеллекта обучала ИИ играть в видеоигры. Одна из таких игр была CoastRunners. Цель игры, как ее понимает большинство людей, состоит в том, чтобы закончить лодочную гонку быстро и предпочтительно раньше других игроков. Но CoastRunners напрямую не вознаграждает игрока за продвижение по трассе, вместо этого, игрок зарабатывает более высокие баллы, собирая различные предметы, расположенные на маршруте. Когда программа была запущена, ученые стали свидетелями чего-то странного. ИИ стал скользить по кругу, собирая неогран

Более 60 лет спустя, в 2016 году, пара исследователей искусственного интеллекта обучала ИИ играть в видеоигры. Одна из таких игр была CoastRunners. Цель игры, как ее понимает большинство людей, состоит в том, чтобы закончить лодочную гонку быстро и предпочтительно раньше других игроков. Но CoastRunners напрямую не вознаграждает игрока за продвижение по трассе, вместо этого, игрок зарабатывает более высокие баллы, собирая различные предметы, расположенные на маршруте.

Когда программа была запущена, ученые стали свидетелями чего-то странного. ИИ стал скользить по кругу, собирая неограниченное количество предметов. Он делал это постоянно, вместо того, чтобы закончить гонку. Для ИИ задача просто собирать предметы оказалась выгоднее задачи закончить гонку. Он просто проигнорировал основное условие игры и сосредоточился на том, что приносило сиюминутное вознаграждение в виде очков.

То, что связывает эти, казалось бы, не связанные между собой события, странно похоже на зависимость у людей. Некоторые исследователи ИИ называют это явление «провокацией».

Когда люди думают о том, как ИИ может «поведет себя не так», скорее всего, они представляют что-то вроде злонамеренных компьютеров, пытающихся причинить вред. В конце концов, мы склонны к антропоморфизации — думаем, что нечеловеческие системы будут вести себя так же, как и люди. Но когда мы смотрим на конкретные проблемы в современных системах искусственного интеллекта, мы видим другие — более странные. Одной из растущих проблем с реальными ИИ является проблема провокации.

Представьте, что вы хотите научить робота содержать кухню в чистоте. Вы хотите, чтобы он действовал адаптивно, чтобы ему не требовался надзор. Итак, вы решаете попытаться закодировать цель уборки, а не диктовать точный и жесткий набор пошаговых инструкций. ИИ отличается от вас тем, что он не унаследовал набор мотиваций — таких как добыча пропитания или инстинкт самосохранения. Вы должны запрограммировать его с правильными мотивами, чтобы заставить его надежно выполнить задачу.

Итак, вы кодируете его на уборку с дополнительным мотивационным правилом: он получает вознаграждение в зависимости от количества использованной чистящей жидкости. Кажется достаточно надежным. Но вы возвращаетесь и обнаруживаете, что робот просто льет жидкость в раковину.

Возможно, он настолько стремится максимизировать свою текучую выгоду, что отбрасывает другие заботы. Это обман — хотя тот же самый сбой также называют «взломом вознаграждения» или «игрой спецификаций».

Это стало проблемой в машинном обучении, где в последнее время стала важной техника, называемая обучением с подкреплением. Обучение с подкреплением имитирует автономных агентов и обучает их изобретать способы выполнения задач. Он делает это, наказывая их за неспособность достичь какой-либо цели и вознаграждая их за ее достижение. Таким образом, агенты настроены на поиск вознаграждения и получают вознаграждение за достижение цели.

Но было обнаружено, что часто, как уборщик кухни, агент находит удивительно нелогичные способы «обмануть» эту игру, чтобы получить все вознаграждение, не выполняя никакой работы. Стремление к вознаграждению становится самоцелью, а не средством выполнения вознаграждающей задачи.

Если задуматься, это не слишком отличается от поведения наркомана. Наркоман обходит все усилия по достижению «истинных целей», потому что вместо этого он использует наркотики для более прямого доступа к удовольствию. И наркоман, и ИИ застревают в своего рода «поведенческой петле», где вознаграждение достигается за счет других целей.