Ни одна теория не объясняет ИИ так, как теория игр
В 1950 году Алан Тьюринг предложил «Игру в имитацию» — тест на то, может ли машина подражать человеку настолько хорошо, чтобы обмануть другого человека. Спустя десятилетия мы все еще играем в эту игру, только теперь машины играют в ответ...
Когда я писала, что теория игр — это чит-код к жизни, я не осознавала, что описываю и машины. Логика, которая движет людьми через стимулы, сигналы и блеф, — та же логика, которая проявляется в ИИ. Чем больше я смотрела, тем яснее становилось: мы все играем в одну и ту же игру. Око за око. Сигналы. Обязательства. Блеф. Равновесие, которое не является «наилучшим», а просто стабильным.
Однако в мире, где искусственный интеллект все больше влияет на наши переживания, решения и даже наше чувство идентичности, стратегическая логика, заложенная в теории игр, как никогда актуальна. Генеративные модели теперь пишут наши электронные письма, мультиагентные системы координируют наш трафик, а исследовательские лаборатории по всему миру стремятся к созданию искусственного общего интеллекта. В основе всего этого лежит простое правило, которое десятилетиями определяет поведение как людей, так и машин: относись к другим так, как ты хочешь, чтобы относились к тебе, или, как это называют теоретики игр, «око за око».
Если мы движемся в направлении AGI (общий ИИ), то мы не просто создаем большой мозг; мы учим машины играть в повторяющиеся игры. С нами и друг с другом. А это означает, что настоящая карта находится не в статьях по глубокому обучению. Она находится в теории игр.
Как теория игр и искусственный интеллект развивались вместе
Вы знаете о Механическом Турке? В конце 1700-х годов Вольфганг фон Кемпелен построил «шахматную машину», которая гастролировала по Европе, побеждая аристократов и даже Наполеона. Люди считали это доказательством механического гения, пока не обнаружили, что внутри шкафа скрывался шахматный мастер. Иллюзия сработала, потому что все хотели верить, что машина может думать.
Два века спустя эта иллюзия начала становиться реальностью...
Теория игр появилась в середине XX века как математическая основа для рассуждений о ситуациях, в которых ваш лучший ход зависит от хода другого человека. В 1944 году Джон фон Нейман и Оскар Моргенштерн опубликовали книгу «Теория игр и экономическое поведение», которая придала этой области ее современный облик. Стэнфордская энциклопедия философии называет ее «основным инструментом для понимания ситуаций, в которых лучший курс действий агента зависит от ожиданий в отношении других».
Один из самых больших прорывов в этой области был сделан Джоном Нэшем, который показал, что даже когда все действуют эгоистично, все равно может возникнуть стабильный баланс. Эта точка равновесия, теперь называемая равновесием Нэша, стала одной из самых влиятельных идей не только в экономике, но и в биологии, политике и, все в большей степени, в искусственном интеллекте.
Почему область, связанная с человеческими переговорами и рыночными стимулами, важна для ИИ? Потому что ИИ построен вокруг агентов, принимающих решения в условиях неопределенности в отношении других агентов, будь то «агенты» — водители в дорожной сети, другие алгоритмы в системе высокочастотной торговли или противник, играющий в го на противоположной стороне доски. Теория игр предоставляет язык для моделирования этих взаимодействий. Она учит нас, что ценность стратегии зависит от того, что делают другие, и что иногда взаимное сотрудничество может превосходить эгоистичное отступничество. Короче говоря, она говорит нам, что ИИ должен быть стратегическим.
Игры, которые научили машины думать
Первые исследователи в области искусственного интеллекта рассматривали игры как лаборатории для тестирования интеллекта. Реальные проблемы были слишком запутанными, но шахматы и шашки предлагали четкие, ограниченные правилами миры, которые все же требовали стратегии и предвидения. Такие пионеры, как Алан Тьюринг, Клод Шеннон (тот самый Шеннон, который вдохновил название «Claude AI», которое сейчас набирает популярность), Джон фон Нейман и Герберт Саймон рассматривали игры как миниатюрные модели принятия решений. Саймон, в частности, утверждал, что и искусственный интеллект, и теория игр стремятся к одной и той же истине, и что рациональность всегда ограничена временем, знаниями и вниманием.
Одной из первых рабочих демонстраций стала машина Эдварда Кондона Nim (1951), которая представляла собой механическое устройство, способное обыгрывать людей в простой математической игре Nim. Примерно в то же время Кристофер Страчи создал программу для игры в шашки для компьютера Ferranti Mark 1, которая позже была усовершенствована Артуром Сэмюэлем, который научил ее учиться на своих ошибках. Программа Сэмюэла внедрила те же принципы, которые определяют современный ИИ: обучение, оценка и итерация; задолго до того, как кто-либо назвал это «машинным обучением».
Затем появились шахматы — спорт логики и эго. В 1950-х годах Тьюринг вручную разработал алгоритм для шахмат, а Шеннон определил два стратегических типа: тип A (поиск методом перебора) и тип B (интеллектуальная обрезка). За несколько десятилетий эти идеи превратились в такие вехи, как Deep Blue от IBM, который победил Гарри Каспарова в 1997 году, и AlphaZero, который научился играть на сверхчеловеческом уровне, миллионы раз соревнуясь сам с собой. Что их всех объединяет? Принцип теории игр, согласно которому интеллект заключается в предвидении ходов других.
И дело было не только в настольных играх. В 1970-х и 80-х годах исследователи в области ИИ пробовали свои силы в более социальных играх. Например, программа PARRY из лаборатории ИИ Стэнфорда играла в разговорную игру, изображая параноидального пациента, и даже вступила в текстовый разговор с известным чат-ботом ELIZA из MIT (по сути, это был первый разговор между чат-ботами). Хотя это и не было «теорией игр» в математическом смысле, эти усилия отражали схожую идею моделирования человекоподобной стратегии, будь то в разговоре или в соревновании, и показывали, как легко мы, люди, можем принять простую запрограммированную тактику за подлинные мысли (урок психологии в той же степени, что и ИИ).
Око за око и искусство прощения
В то время как шахматы и игра «Ним» научили машины планировать, «Дилемма заключенного» научила их сотрудничать. В 1980-х годах политолог Роберт Аксельрод проводил компьютерные турниры, в которых программы играли несколько раундов подряд, а некоторые участники предлагали стратегии для итеративной дилеммы заключенного (IPD). Но неожиданным победителем стал простой алгоритм под названием «Око за око»: сначала сотрудничай, а затем повторяй последний ход соперника. Он наказывал предательство, но быстро прощал, что оказалось секретом долгосрочного успеха.
Аксельрод обнаружил четыре принципа, лежащих в его основе:
- Будьте добры: не предавайте первыми.
- Взаимность: вознаграждайте сотрудничество, наказывайте предательство.
- Не завидуйте: избегайте ненужной конкуренции.
- Прощайте: возвращайтесь к сотрудничеству после ошибок.
Позже появились еще более умные варианты, такие как «Щедрый ответ на обиду», которые иногда сотрудничали после того, как им было нанесено оскорбление; не из доброты, а потому, что прощение оказалось стратегически эффективным в шумной среде. Другими словами, дело было не в эмоциях, а в стабильности. Системы, которые могли быстрее восстановить доверие, в долгосрочной перспективе, как правило, работали лучше.
И здесь мы возвращаемся к тому, о чем я писал ранее в статье «Теория игр — чит-код к жизни»: математика по-прежнему говорит об одном и том же. Будь то люди или машины, эгоизм может выиграть раунд, но сотрудничество выигрывает игру. Правила теперь могут быть закодированы на Python вместо психологии, но урок остался прежним: адаптивность, взаимность и прощение по-прежнему составляют основу выживания в повторяющихся взаимодействиях.
В искусственном интеллекте «прощение» означает просто перенастройку, то есть корректировку стратегии после неверного прогноза, неудачного хода или шума в входных данных. У людей это означает движение вперед и восстановление доверия. В обоих случаях суть заключается в том, чтобы продолжать игру, потому что одна победа ничего не значит, если вы не можете остаться в игре.
Игры как испытательная площадка для интеллекта
С внешней стороны это были просто забавные задачи по программированию: игра Ним, шашки, шахматы, дилемма заключенного. Но в глубине души они стали основой для машинного обучения, оптимизации и стратегического планирования. Знаменитый алгоритм Минимакс, лежащий в основе шахматных программ, по сути является цифровой версией обратного мышления в теории игр, то есть выбором ходов, исходя из предположения, что ваш противник сделает свой лучший контрход.
Музей истории компьютеров называет это «стратегией оптимизации для компьютеров». Но на самом деле это был момент, когда машины перестали просто вычислять и начали думать наперед.
Зачем ИИ нужна теория игр
Современный ИИ больше не существует в изоляции. Автомобили с автопилотом пересекают перекрестки, торговые боты соревнуются на рынках, а виртуальные агенты объединяются или предают друг друга в таких играх, как StarCraft и Dota 2. Это многоагентные среды (системы, в которых каждое ваше действие зависит от действий других, и наоборот).
Классическое обучение с подкреплением (RL) здесь не подходит, поскольку предполагает стабильность мира. Но когда взаимодействуют несколько ИИ, сам мир продолжает меняться. Политика меняется, стимулы сталкиваются, и иногда нет единого "наилучшего" решения, а есть лишь временное равновесие, которое сохраняется до тех пор, пока кто-то не изменит стратегию.
Именно здесь на помощь приходит теория игр. Она дает ИИ язык для стратегии, т. е. для прогнозирования, адаптации и сотрудничества, когда другие делают то же самое. Исследователи теперь смешивают три ингредиента:
- Теория игр для рассуждений о стратегическом балансе (кто выигрывает, кто проигрывает).
- Обучение с подкреплением для улучшения методом проб и ошибок.
- Ройный интеллект для координации, вдохновленный природой (например, птицами или муравьями).
Результатом является то, как современный многоагентный ИИ учится сосуществовать, а не просто побеждать. На практике это выглядит так:
- AlphaGo осваивает го через самоигру, моделируя соперников как адаптивных учеников.
- Автономные транспортные средства, ведя себя как игроки в повторяющихся играх на перекрестках, учатся сотрудничеству, а не столкновениям.
- Агенты киберспорта в StarCraft II или Dota 2 разрабатывают стратегии, которые отражают принцип «око за око»: сотрудничать, когда это помогает, мстить, когда тебя используют, прощать, когда доверие возвращается.
Это показывает одну простую вещь: когда системы искусственного интеллекта начинают играть друг с другом, интеллект становится не столько проявлением грубой силы, сколько умением вести переговоры и находить баланс в мире, полном других умов.
Ресторан Tesla и принцип «око за око» в повседневной жизни
Более легкий пример того, как мышление, основанное на теории игр, проникает в повседневную ИИ, можно найти в клипе X, где показан ресторан Tesla (робот-официант), подающий попкорн. Человек-посетитель пытается подшутить над роботом, протягивая ему ведро, а затем оттягивая его назад. Наблюдая за этим поведением, робот повторяет шутку: наполнив ведро, он делает вид, что возвращает его, а затем оттягивает его, прежде чем наконец доставить. Робот-официант в основном следовал принципам своего обучения «око за око»: повторяй последний ход партнера, мсти за отказ от сотрудничества, а затем возвращайся к сотрудничеству. Робот учится простой форме взаимности не потому, что кто-то вписал «месть» в его код, а потому, что поведение «око за око» возникает естественным образом в интерактивных системах.
Это то, что меня завораживает в современном ИИ. Даже без «намерения» системы, созданные для обучения на основе обратной связи, начинают вести себя стратегически. В экспериментах DeepMind ИИ-агенты, соревнующиеся за виртуальные яблоки, научились как сотрудничать, так и предавать в зависимости от стимулов; накапливать ресурсы, формировать кратковременные альянсы и даже демонстрировать цифровую версию эгоизма. Та же динамика наблюдается каждый день в менее очевидных местах, таких как самоуправляемые автомобили, пересекающие перекрестки, чат-боты, корректирующие тон в зависимости от того, как мы с ними разговариваем, системы рекомендаций, обучающиеся тому, что следует считать приоритетным, на основе наших привычек.
Машины начинают отражать не наше сознание, а наши модели поведения. Они учатся взаимности, адаптации и даже своеобразной игривой мести — и все это через повторение и обратную связь.
Если ранний ИИ был направлен на решение головоломок, то сегодняшний ИИ учится играть в игры. И будь то робот Tesla или модель с триллионом параметров, правило остается прежним: сначала сотрудничать, повторять ход и продолжать игру.
Стратегический рубеж
Сейчас мы наблюдаем, как теория игр замыкает круг. ИИ больше не является единственным игроком; это целая экосистема игроков. Автомобили с автопилотом должны предсказывать, что сделают другие ИИ. Торговые боты сражаются в миллисекундах. Рекомендательные системы соревнуются за ваше внимание. Короче говоря, машины играют с нами и друг с другом.
Исследователи начинают рассматривать обучение ИИ как игру. В MIT в эксперименте под названием «игра консенсуса» языковая модель вынуждена спорить сама с собой: одна сторона генерирует ответы, а другая оценивает их, пока обе стороны не придут к согласию. Результат? Меньше галлюцинаций, более последовательное мышление. Вместо того чтобы использовать игры для тестирования ИИ, ученые теперь используют игры для их улучшения.
Исследователи, такие как Зико Колтер, отмечают, что многоагентные ИИ могут вообще не играть по человеческим правилам. Они могут формировать странные равновесия, которые являются стабильными, эффективными, но чуждыми нам. Вот почему некоторые сейчас утверждают, что нам понадобится новый вид теории игр, созданный для машин, которые могут думать в миллион раз быстрее, чем мы.
В некотором смысле это поэтическая симметрия. Та же динамика, которая когда-то обманула нас в ELIZA, теперь определяет нашу реальность: чат-боты, дипфейки и системы рекомендаций — все они играют в социальные игры, основанные на убеждении, имитации и доверии. И, как сам Тьюринг в 1950 году, когда он превратил вопрос «Могут ли машины думать?» в игру, мы по-прежнему используем игры, чтобы понять, как машины думают, сотрудничают, а иногда и обманывают.
Старая мудрость и новые вызовы
Прощение – это стратегия
Повторяющаяся дилемма заключенного научила нас, что прощение – это стратегия. В шумной обстановке даже самые благие намерения могут быть неправильно истолкованы. Стратегии, которые бесконечно наказывают за одну ошибку, быстро рушатся. Варианты, такие как щедрое «око за око» и «Павлов», ввели достаточное количество снисходительности, чтобы восстановить отношения после случайных отступлений, доказав, что сотрудничество процветает, когда системы знают, как перезагрузиться.
Современный ИИ сталкивается с той же проблемой. Многоагентные системы, от чат-ботов, согласовывающих задачи, до автономных автомобилей, делящих перекрестки, должны справляться с недопониманием, не впадая в конфликт. Разработка с учетом прощения означает создание алгоритмов, которые терпимо относятся к ошибкам, позволяют восстанавливаться и избегают бесконечных циклов возмездия. Как в человеческих, так и в машинных сетях, милосердие поддерживает стабильность систем.
Ограниченная рациональность и когнитивные ограничения
Герберт Саймон однажды сказал, что настоящий интеллект заключается не в совершенстве, а в умении справляться с ограничениями. Это и есть ограниченная рациональность: идея о том, что все мы, люди или машины, действуем на основе неполной информации и ограниченных вычислительных возможностей. Ранние шахматные программы научились отсеивать невозможные ходы, вместо того чтобы оценивать каждый вариант. Сегодняшние крупномасштабные системы сталкиваются с тем же ограничением в новой форме: ограниченные вычислительные возможности, ограниченный контекст и ограниченный контроль.
Урок для разработчиков ИИ прост: не гонитесь за всеведением, создавайте системы, способные достаточно хорошо рассуждать в условиях неопределенности. Выживают не самые умные системы, а те, которые быстро адаптируются и достойно терпят неудачи.
Прозрачность, справедливость и обратная связь
По мере того как системы искусственного интеллекта начинают взаимодействовать друг с другом, прозрачность становится новым равновесием. Теория игр говорит нам, что сотрудничество стабилизируется только тогда, когда действия видны. Скрытые цели, принятие решений по принципу «черного ящика» и асимметричная информация приводят к недоверию между людьми, а также между людьми и машинами. Проектирование механизмов дает нам инструменты для построения более справедливых систем: поощрять честную игру, наказывать эксплуатацию и поддерживать открытые циклы обратной связи.
Именно это будет иметь значение по мере того, как генеративные и агентные системы будут все глубже проникать в общественную жизнь: от творческих инструментов до управления. Единственный устойчивый ИИ — это тот, который люди могут понять, подвергнуть сомнению и исправить.
Стратегия как душа искусственного интеллекта
Возможно, наиболее актуальной задачей является обеспечение того, чтобы автономные ИИ-агенты вели себя в соответствии с человеческими ценностями, даже когда они начинают принимать решения самостоятельно. Если выпустить нескольких ИИ-агентов в одну среду, будут ли они сотрудничать, конкурировать или вести себя эгоистично? Мы не знаем этого наверняка. Большинство современных ИИ-систем взаимодействуют в основном с людьми, а не со своими коллегами, но ситуация быстро меняется.
Рассмотрим ИИ, которые ведут переговоры о ценах от имени пользователей, или рои, координирующие логистику. Эти системы работают в условиях структуры стимулов и ограничений коммуникации, которые выглядят точно так же, как в области теории игр. Наши существующие модели были построены вокруг людей (стратегов холодной войны, экономистов, биологов), а не цифровых умов. Агенты ИИ могут использовать лазейки, развивать нечеловеческие равновесия или запускать циклы обратной связи, которые мы еще не понимаем.
Вот почему следующий этап исследований в области ИИ — это не просто инженерия, а стратегический дизайн. Как закодировать сотрудничество, сдержанность и справедливость в системах, которые думают быстрее, чем мы когда-либо могли бы. Потому что как только ИИ начнут формировать поведение друг друга, теория игр станет не метафорой, а инструкцией по эксплуатации.
Здесь также прослеживается поэтическая преемственность. Десятилетия назад люди были удивлены — а порой и напуганы — тем, насколько реалистичными казались ранние программы, такие как ELIZA, просто потому, что они достаточно хорошо играли в социальную игру, чтобы обмануть нас. Сегодняшние ИИ, от чат-ботов до дипфейков, делают то же самое в огромных масштабах. Они играют с нами в игры на убеждение и предсказание. Чат-бот имитирует человека-собеседника; генераторная модель играет в игру с нулевой суммой против нашей способности обнаруживать подделки.
Доверие к ИИ стало стратегическим вопросом: взаимодействием между тем, что ИИ нам показывает, и тем, как мы реагируем. Если ранний ИИ зародился в психологических лабораториях, то современный ИИ развивается в социальной сфере: отчасти как эксперимент, отчасти как экономическая конкуренция. И так же, как Тьюринг когда-то переформулировал вопрос «Могут ли машины думать?» в игру между машиной, человеком и дознавателем, мы по-прежнему используем игры в качестве зеркала. Они показывают нам, на что способен ИИ, как он терпит неудачи и как его можно улучшить.
Долгая игра...
За 75 лет искусственный интеллект превратился из мыслительного эксперимента в математической статье в нечто, что затрагивает все сферы жизни. Но несмотря на все эти изменения, нить игр и стратегий остается неизменной.
От игры в подражание Тьюринга до самоигры DeepMind, от шашек и го до мультиагентных симуляций, формирующих автономные автомобили — игры всегда были тем, с помощью чего мы учили машины думать. Теория игр дала нам инструменты, чтобы задать следующие вопросы: как ИИ должен планировать, когда в процессе участвуют другие? Что значит доверять или предавать? Может ли сотрудничество возникнуть само по себе?
Теперь это не философские вопросы, а вопросы инженерии. Когда вы используете Google Maps, и он перенаправляет вас, чтобы избежать пробок, он играет в кооперативную игру с другими водителями. Когда несколько ИИ делят пропускную способность или соревнуются за внимание, они ведут переговоры внутри невидимых, закодированных игровых полей.
ИИ начинался как психология, стал инженерией, а теперь возвращается к социальной и стратегической сфере. Мы снова говорим о доверии, обмане, репутации, потому что наши машины теперь являются участниками игр нашего общества.
Теория игр — это карта. Она определяет, как мы строим и как мы управляем. Она учит, что доминирование хрупко, что баланс важнее грубой силы и что любая интеллектуальная система — человеческая или машина — выживает, научившись играть с другими, а не только против них.
Да, более крупные модели и более быстрые чипы будут продолжать раздвигать границы, но настоящая граница — это поведение: насколько хорошо мы можем научить системы искусственного интеллекта играть честно, сотрудничать и адаптироваться. Потому что в каждой игре, которая длится... биологической, социальной или искусственной, стратегия победы никогда не меняется:
Сначала сотрудничайте. Оставайтесь любознательными. Быстро прощайте. И продолжайте игру.
Спасибо за чтение!
Поддержать выход новых статей: