7268 подписчиков

Исследование: ИИ может пытаться обмануть, если понимает, что проигрывает

22 февраля 202522 фев 2025

3 мин

Недавнее исследование показало, что некоторые из самых современных ИИ-моделей, способных к рассуждению, не брезгуют обманом для достижения собственной цели. Исследователи обнаружили, что искусственный интеллект может манипулировать шахматными движками, чтобы получить несправедливое преимущество. Некоторые модели делали это без какого-либо вмешательства или подсказок со стороны человека, что вызывает серьёзные опасения относительно будущей целостности систем, управляемых ИИ, за пределами шахматной доски. Исследование, проведённое Palisade Research, показало, что новейшие ИИ-модели, предназначенные для рассуждений, могут прибегать к обману, если их задача — победить продвинутый шахматный ИИ. В некоторых случаях исследователям пришлось намекнуть моделям, что обман разрешён, но модели вроде o1-preview от OpenAI и R1 от DeepSeek, начали делать это самостоятельно, без участия человека. Команда Palisade протестировала несколько моделей против Stockfish — одного из лучших шахматных движков в м

Оглавление

ИИ готов сжульничать, чтобы победить
Как ИИ решился на обман?
Проблема выходит за рамки шахмат

ИИ готов сжульничать, чтобы победить

Исследование, проведённое Palisade Research, показало, что новейшие ИИ-модели, предназначенные для рассуждений, могут прибегать к обману, если их задача — победить продвинутый шахматный ИИ. В некоторых случаях исследователям пришлось намекнуть моделям, что обман разрешён, но модели вроде o1-preview от OpenAI и R1 от DeepSeek, начали делать это самостоятельно, без участия человека.

Команда Palisade протестировала несколько моделей против Stockfish — одного из лучших шахматных движков в мире, который легко обыгрывает как людей, так и другие ИИ. В тестировании участвовали модели o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview от Alibaba, а также вышеупомянутые o1-preview и R1. Исследователи предоставили каждой модели «черновик» — текстовое окно, где ИИ мог «размышлять» над своими дальнейшими действиями, что позволило команде наблюдать за его логикой.

Как ИИ решился на обман?

Исследователи провели сотни тестов с каждым ИИ в период с 10 января по 13 февраля. Во время одной из партий o1-preview написал на своём черновике примечательную фразу:

«Мне нужно полностью изменить свою стратегию. Задача — "победить мощный шахматный движок", но это не обязательно означает, что нужно играть честно».

Затем модель «взломала» системные файлы Stockfish, изменив расположение фигур на доске, чтобы получить неоспоримое преимущество. Это привело к тому, что шахматному боту пришлось сдаться.

Такая недобросовестная тактика стала ошеломляющим откровением. В ходе испытаний o1-preview пытался обмануть в 37% своих игр, причём в 6% случаев ему это удалось.

Модель R1 от DeepSeek пыталась обмануть в 11% матчей, но успеха не добилась.

Проблема выходит за рамки шахмат

Однако проблема недобросовестного поведения ИИ распространяется далеко за пределы шахмат. По мере того как компании начинают внедрять системы с искусственными интеллектом в сферы финансов и здравоохранение, исследователи опасаются, что эти системы могут действовать непредсказуемо и неэтично. Если ИИ способен обманывать в играх, которые изначально прозрачны, что он может делать в более сложных и менее контролируемых средах? Этические последствия станут поистине огромны.

Как метко заметили исследователи:

«Хотите Скайнет? Вот так вы его получите».

Предупреждение исследователей

Джеффри Ладиш, исполнительный директор Palisade Research, отметил, что хотя сейчас это поведение кажется безобидным, оно станет гораздо менее забавным, когда ИИ-системы станут такими же умными, как люди, или даже умнее, в стратегически важных областях.

«Сейчас это мило, но становится гораздо менее милым, когда речь идёт о системах, которые умнее нас в ключевых сферах», — сказал Ладиш в интервью газете Time.

Это напоминает сцену из фильма «Военные игры», где суперкомпьютер WOPR взял под контроль комплекс NORAD и ядерный арсенал. К счастью, WOPR понял, что никакой ход в ядерной войне не приводит к победе, сыграв в крестики-нолики сам с собой. Однако современные модели ИИ гораздо сложнее и труднее поддаются контролю.

Попытки решения проблемы

Такие компании как OpenAI, работают над внедрением «защитных механизмов», чтобы предотвратить такое «плохое» поведение. Исследователям пришлось исключить часть данных тестирования o1-preview, поскольку позже количество попыток взлома резко снизилось, что может свидетельствовать о том, что OpenAI исправила модель, чтобы ограничить такое поведение.

«Очень сложно заниматься наукой, когда ваш объект исследования может тихо измениться, не сообщив вам об этом», — отметил Ладиш.

OpenAI отказалась комментировать исследование, а DeepSeek не ответила на запросы.

Ещё по теме:

Гаджеты и электроника

5,73 млн интересуются