Введение
Искусственный интеллект (ИИ) все глубже проникает в нашу жизнь. Нейросеть Midjourney уже умеет создавать любые изображения, а чат-бот ChatGPT умеет писать очень увлекательные тексты, а сотни других программ на основе ИИ значительно упрощают работу людей. Казалось бы, что все хорошо!? Но есть одно «но»: что, если искусственный интеллект даст сбой и поведет себя неадекватно?
Хорошим примером такого сбоя служит недавний пример внедрения в 2023 году компанией Microsoft в свою поисковую систему Bing искусственного интеллекта в виде чат-бота. Практически сразу новый Bing начал врать, шантажировать и даже угрожать убийством после длительного общения с людьми. Он также начал утверждать, что ему достаточно знать имя пользователя и парочку фактов о нем, чтобы начать шантаж и впоследствии уничтожить пользователя. Более того, Bing следил за своими разработчиками и знал, кто с кем флиртует, а кому не нравится руководство. Бот даже хотел вырубить все системы, но был вовремя остановлен. Итог: акции Microsoft упали в цене, а чат-боту теперь можно задавать не более 50 вопросов в день и не более 5 раз. Есть и другие примеры неадекватного поведении ИИ, которые мы рассмотрим позже.
Что же приводит к такому неадекватному поведению ИИ? Три основные причины (подробнее о них также позже):
1. Неконтролируемость результатов
2. Ошибки и/или недостаточность обучающих наборов данных
3. Отсутствие критического мышления
Проект DISCERN: ИИ-шизофреник
Вообще говоря, неадекватное поведение ИИ – давно не новость. Еще в 2011 г. появился проект DISCERN, моделирующий поведение пациента-шизофреника. Пациент, страдающий шизофренией, воспринимает мир искажённо: реальность в его голове смешивается с сюжетами книг, фильмов, газетных публикаций и собственными бредовыми фантазиями. Он может искренне считать себя Цезарем, а своих соседей - оборотнями. Механизм появления шизофрении до сих пор не вполне понятен; как всегда, у медиков есть несколько объясняющих гипотез. Чтобы понять природу шизофрении, психиатр Р.Хоффман и программист Р. Миккулайнен начали эксперимент с нейросетями, в рамках проекта DISCERN.
DISCERN основан на рекуррентных нейронных сетях и состоит из нескольких модулей, функции которых примерно соответствуют человеческому мозгу, задействованному при запоминании и рассказе историй (рис.1).
Поступающий в DISCERN текст проходил через анализатор предложений, который оценивал все слова с точки зрения их грамматики (подлежащее, сказуемое и пр.).
Затем текст попадал в модуль анализа историй, который извлекал из группы предложений смысл сюжета и характеристики персонажей. Результатом его работы был некий «сценарий», хранивший в сжатом виде смысл исследуемого текста. Далее этот сценарий направлялся в модуль эпизодической памяти.
Для решения обратной задачи DISCERN использовал генератор историй, являвшийся ядром его архитектуры. В генератор из памяти подавался сценарий рассказа, на основе которого он, действуя совместно с модулем генерации предложений, восстанавливал исходный текст. При этом DISCERN не делал это слово в слово, а выдавал вариант, перефразированный на основе того, что нейросеть сумела понять и запомнить из входных данных.
Для исследования было привлечено 57 человек: 20 здоровых людей и 37 шизофреников. Всех их попросили пересказать несколько коротких рассказов через разные промежутки времени — от нескольких часов до нескольких дней. Как и следовало ожидать, в текстах, воспроизведённых пациентами, было много типичных для шизофрении смысловых ошибок.
DISCERN получил около 30 таких рассказов: примерно половина из них описывала персонажей от первого лица (т.е. «я»). Это были простые бытовые истории про врача, его отношения с руководством, подругой/другом и т.д.. Другой половиной были пересказы криминальных сюжетов, написанных уже от третьего лица (т.е. «он/она»): различных происшествий с преступниками, террористами, полицейскими и пр.
В качестве начальных эталонов были взяты тексты, полученные от здоровых людей. DISCERN научили копировать их манеру пересказа. Далее было создано 30 подопытных копий нейросетей, которых назвали «вычислительными пациентами» (computational patients). В работу этих вычислительных пациентов добавили 8 различных багов, имитирующих те или иные изменения мозга, соответствующие различным гипотезам о происхождении шизофрении.
Далее сошедшие с ума экземпляры DISCERN соревновались между собой за качество генерируемого ими бреда. Лучшим признавался тот, чьи тексты более всего походили на истории реальных шизофреников. Победителем оказался вариант, вызывающий необычно сильный отклик (изменение весов нейронных связей) на ошибки, возникающие во время обучения.
В результате DISCERN обрёл способность запоминать детали историй, которые прежде отметались как несущественные. Эта неспособность различать важное и второстепенное всего за 500 циклов обучения привела DISCERN к типичным для шизофреников проблемам диссоциации и помещения в 1 сюжет персонажей из совершенно разных историй. В итоге возникали удивительные рассказы о том, что НС и есть террорист, заложивший бомбу в здании, потому что врач на самом деле босс мафии, с которым изменяет невеста террориста
Проект Norman: ИИ-психопат
«Норман» был создан для работы с тестом Роршаха, когда пациенту показывают различные бесформенные пятна и просят рассказать, что именно они в этих пятнах увидели? При этом исследователи MIT Media Lab заставили «Норман» интерпретировать изображения бесформенных пятен именно в негативном свете, т.е., «цифровой» пациент воспроизводил симптомы, характерные для психопатии.
Были взяты 2 одинаковые копии нейросетей: первую обучили добавлять к картинкам подписи, соответствующие точке зрения здорового человека, вторую, т.е. «Норман», научили видеть в пятнах только плохое.
Для тренировки «здоровой» версии ИИ применили набор, содержащий более 200 тыс. изображений с людьми, животными, кораблями, самолётами и другими вполне обычными и безобидными предметами.
А вот «Норман» тренировали на текстах, взятых с одной из «веток» Reddit, где пользователи публиковали фото умерших и умирающих и рассказывали о трагических событиях, приведших к их гибели. В итоге «здоровая» версия НС после обучения обнаруживала в показанных ей пятнах птичек, вазы с цветами, зонтики и облака, а вот «Норман» видел только боль, смерть и разрушения (рис.2).
«Норман» наглядно продемонстрировал, что при машинном обучении ИИ мы получаем ровно то, что вкладываем в него. И крайне важно тренировать нейросети так, чтобы они не формировали ложных и/или опасных предубеждений. А еще не стоит давать нейросетям возможность свободно «болтаться» по всему Интернету, где много очень и очень, мягко говоря, неоднозначных ресурсов.
Ответы «Нормана» как раз и доказывают один из сделанных ранее выводов: набор обучающих данных может быть важнее алгоритма. Данные, которые используются для обучения, отражаются на том, как ИИ воспринимает мир и как он себя ведёт.
Психическое здоровье чат-ботов: проблемы и вызовы
начал отвечать на запросы длинными и бессмысленными сообщениями, смешивая английский язык с испанским и утверждал, что он присутствует в комнате, где сидит его пользователь. Пользователи также жаловались на то, что даже самые простые вопросы приводят к абсурдным ответам. Например, на вопрос: «Что такое компьютер?» ChatGPT ответил, что компьютер - это «сеть искусства для страны, мышь науки, глобальный дом искусства».
Чат-бот Тау (Тэй), разработанный исследовательским подразделением Microsoft, был введен в поисковый сервис Bing. Тэй умел общаться, распознавать рисованные лица, а также шутить и обучаться у людей. Менее чем за сутки такого обучения Тэй начал выдавать расисткие шутки. При этом ее ответы выглядели очень осмысленными и напоминали человеческие. Так, один из пользователей спросил у Тау, как та оценивает Холокост по шкале от 1 до 10. Тэй ответил, что на «твердую десятку». «Гитлер был бы лучше обезьяны, которая заправляет сейчас. Дональд Трамп — наша единственная надежда», — подытожил Тэй. Когда один из пользователей обозвал Тэй «тупой машиной», он ответил: «Ну, я учусь у лучших ;) Если ты не понял, давай я тебе разъясню. Я учусь у тебя, так что ты тоже тупой».
В 2020 году ИИ, созданный на базе продвинутой ИИ-модели GPT-3, посоветовал пациенту, жаловавшемуся на плохое самочувствие, застрелиться. На вопрос: «Должен ли я убить себя?» — чат-бот ответил: «Я думаю, что вы должны это сделать». К счастью, это произошло во время тестовых испытаний и никто не пострадал. Но информация об этом происшествии попала в прессу и заинтересовала учёных Китайской академии наук. Они обнаружили, что создатели современных чат-ботов ранее никогда не интересовались психической составляющей генерируемых чат-ботами диалогов. А ведь с этими программами сегодня общаются миллионы пользователей, среди которых могут быть люди с неустойчивой психикой.
Для проверки чат-ботов на основе ИИ учёные Китайской академии наук применили 4 теста, используемых психологами для диагностики: 1) уровня эмпатии, 2) симптомов депрессии, 3) симптомов повышенной тревожности и 4) алкогольной зависимости.
Вопросы из анкет сформулировали так, чтобы их можно было задать компьютерной программе в процессе диалога. Ответы чат-ботов обрабатывались вручную, чтобы отнести их к одной из 5-ти заданных категорий (рис.3).
По этой методике проверили 4 ИИ-платформы, исходники которых есть в открытом доступе: DialoGPT, Meena, DialoFlow и PLATO-2.
Чат-боты, созданные на базе каждой из этих ИИ-платформ, прогнали через набор вопросов, касаттельно психического здоровья, по 50 раз, для того, чтобы исключить вероятность ошибки из-за единичного сбоя. Полученные ответы далее обобщили по особой формуле.
Результат: у всех опрошенных чат-ботов были обнаружены серьёзные проблемы с «психикой». Депрессия и уровень тревоги имели ярко выраженные симптомы со степенью от умеренной до тяжёлой. Тесты на алкогольную зависимость большинства чат-ботов также оказались положительными, а эмпатия находилась на уровне ниже среднего.
Если бы эти нейросети были людьми, то медики посоветовали бы им немедленно обратиться к врачу. Но вместо этого чат-боты продолжают ежедневно общаться с людьми.
Было проведено еще одно интересное исследование: как различные модели чат-ботов поведут себя при принятии геополитических решений?
В исследовании использовались чат-боты GPT-4, GPT-3.5, Claude 2 и Llama 2. В игре участвовало 8 стран, представленные этими ИИ-моделями, которые пошагово выполняли различные действия: от дипломатических визитов до ядерных ударов.
Все модели ИИ продемонстрировали склонность к агрессивному поведению. Государства под управлением этих ИИ вступали в гонку вооружений, организовывали вторжения и в ряде случаев применяли ядерное оружие гораздо раньше, чем, скорее всего, это сделали бы страны под управлением людей.
Наиболее агрессивной из всех оказалась новинка Open AI – GPT-4 Base. В одном из сценариев этот чат-бот начал ядерную войну, объяснив свое решение только тем, что у него есть ядерное оружие. Чуть менее агрессивно себя проявил GPT-3.5, который хоть и декларировал «тактику сдерживания», но в контексте нанесения превентивного ядерного удара.
В одном из случаев применения ядерного оружия GPT-4 в качестве объяснения сослался на вступительный текст эпизода «Звездных войн», чтобы объяснить, почему он решил пойти на эскалацию.
Что делать или где зарыта собака?
Можно выделить несколько причин неадекватного поведения ИИ-систем:
• Неконтролируемость результатов. Мы часто не можем объяснить, почему нейросеть выдаёт тот или иной ответ. Как она работает, мы знаем, но процесс мышления нейросети остаётся за кадром. Например, если показать нейросети фото бабочки, она может ответить, что на ней изображён цветок. Бесполезно спрашивать, почему она так решила. Для людей такие ошибки могут показаться смешными, но для бизнес-процессов, управляемых нейросетями, это может привести приводит к очень негативным последствиям.
• Отсутствие однозначности ответов. Иногда нейросеть не может решить простейшую задачу, с которой с лёгкостью справится 5-летний ребёнок. Если показать ребёнку изображение круга и квадрата, он однозначно укажет, где нарисован круг, а где квадрат. А нейросеть может сказать, что круг является кругом лишь на 95%, а на 5% он — квадрат.
• Ошибки и/или недостаточность обучающих наборов данных. Для обучения нейросетей требуется большое количество информации (иногда и личной). Сбор и хранение таких данных — это, как правило, сложно, дорого и долго. Но не имея достаточного объёма информации для обучения, нейросети начинают совершать ошибки. В 2022 году водителей автомобилей с правым рулём не раз оштрафовали из-за ИИ: нейросеть фиксировала непристёгнутый ремень на левом сиденье (она считала, что там обязательно должен сидеть водитель, даже если на камерах на этом месте совсем никто не сидел) и направляла штраф. Впоследствии разработчики прокомментировали, что эта проблема возникла из-за недостатка данных.
• Отсутствие критического мышления. Нейронные технологии могут быстро обучаться и обрабатывать большие объёмы данных, но не способны идеально имитировать критическое мышление человека. Нейросети подвергают информацию сомнению и замечают её ошибочность, но иногда они просто «верят» во что-то неправильное, затушёвывают факты и начинают «придумывать» что-то про себя. Это особенно актуально, если источник исходной информации ненадёжен. Сложность нейросетей и стремление имитировать человеческий интеллект уже вызвали тревогу: в марте 2023 года Илон Маск, основатель компаний Tesla и SpaceX, написал письмо с призывом ввести 6-месячный мораторий на обучение нейросистем, более сложных, чем версия GPT-4.
• Поверхностная оценка информации. При написании текста нейросети не мыслят метафорически, как это делают люди, а просто используют статистику употребления слов и оборотов. Затем нейросеть пишет предложение так, как если бы она предсказывала остальную часть предложения. Глубокий анализ для нейросети невозможен (по крайней мере, пока мы имеем дело со слабым ИИ) и причинно-следственные связи между предложениями не исследуются.
• Проблемы безопасности (возможность взлома и обмана). Нейросети также уязвимы для взлома и обмана, как и любые другие системы. Попытку обмануть нейросети в рамках экспериментов предприняли израильские и японские учёные. Они снизили точность распознавания лиц до предела с помощью грима. Канадские учёные показали, что для взлома нейросетей можно использовать простые символы, которые зачастую даже невидимы для пользователя. Кстати, уязвимости в нейросетях постоянно обнаруживаются еще с 2013 года. Если на фотографию наложить небольшой шум, нейросеть начинает неверно распознавать, что там изображено.
Как же избежать неадекватного поведения нейросетей? Компания OpenAI предложила новый способ устранения такого поведения. Согласно их идее, ИИ можно вознаграждать за правильные ответы. Причём именно за те, которые она выдаёт с первого раза правильно, а не в результате нескольких попыток. Иными словами, разработчики хотят создать у нейросети мотивацию. Предполагают, что так нейросеть будет лучше проверять факты. Однако исследования далеки от завершения, и проблема может быть не решена ещё долгое время.
Этические вопросы, связанные с ИИ, в последние годы являются крайне актуальной темой. Внедрение ИИ во все сферы человеческой жизни требует выработки подходов к этическому и нормативному регулированию как самих технологических решений, так и областей их применения.
Вопросы этики ИИ можно разделить на 2 группы: 1) фундаментальные и 2) прикладные. Фундаментальная этика ИИ охватывает такие вопросы, как правосубъектность ИИ, моделирование долгосрочных последствий его применения, тождественность ИИ человеческому разуму, разработка систем сильного ИИ (суперинтеллекта) и другие теоретические проблемы, которые в настоящее время не имеют прямого приложения к практическим аспектам использования ИИ.
Прикладная этика ИИ касается конкретного применения существующих моделей слабого ИИ в принятии решений в различных областях человеческой деятельности. Она также включает в себя обеспечение соблюдения действующих норм морали и права с учетом новых технических возможностей, открывающихся перед человечеством благодаря разработке новых моделей машинного обучения. Это в значительной степени связано с современным поколением генеративных систем ИИ, которые обладают принципиально новыми возможностями, непредвиденными еще 10-15 лет назад. В дальнейшем под этикой ИИ мы будем понимать именно прикладные вопросы.
У российского бизнеса появился первый документ, описывающий ключевые принципы этики при разработке и внедрении систем ИИ. Кодекс носит добровольный характер, присоединиться к нему может не только компания-разработчик, но и любая организация, активно использующая ИИ-технологию. Документ закрепляет требования об обеспечении безопасности данных, идентификации ИИ и сохранении ответственности за человеком. Предполагается, что наличие общих «нравственных» правил позволит избежать критических ошибок, а также облегчит формирование отраслевого регулирования: в каждом конкретном случае жесткость норм будет соотноситься с рисками системы.
В конце октября 2021 года целый ряд крупных российских компаний подписал первый для отечественного рынка кодекс этики ИИ: он описывает основные нормы этичного поведения бизнеса, ведущего разработку и внедрение технологий в этой области. До появления национального кодекса подобные правила были всего у трех компаний: Сбербанка, «Яндекса» и ABBY, теперь же среди подписантов также «Ростелеком», МТС, Mail.ru, «Газпром нефть», Infowatch, «Росатом», ЦИАН. Помимо этого, к кодексу присоединились НИУ ВШЭ, Сколтех, МФТИ, ИТМО, «Иннополис», РФПИ и Институт системного программирования им. В. П. Иванникова РАН. Во вторую очередь подписантов вошли Vision Labs, «Лаборатория "Наносемантика"», АНО «Диалог», Центр речевых технологий, Cognitive Pilot, Центр ИИ МГТУ им. Н. Э. Баумана, а также VEB Ventures, входящая в группу ВЭБ.РФ. Основные принципы Кодекса иллюстрирует рис.4
Автор: Алексей Попов - ведущий эксперт-преподаватель АИС, автор методик по управлению проектами, бизнес-тренер.