60 подписчиков

ИИ лжет мне? Ученые предупреждают о растущей способности к обману

7 минут

2 прочтения

14 мая

Исследователи обнаруживают случаи, когда системы обманывают оппонентов, блефуют, притворяются людьми и изменяют поведение в тестах.

Они могут Они могут перехитрить людей в настольных играх, расшифровать структуру белков и вести сносный разговор, но по мере того, как системы искусственного интеллекта становятся все более совершенными, растет и их способность к обману, предупреждают ученые.

Анализ, проведенный исследователями Массачусетского технологического института (MIT), выявил широкий спектр случаев, когда системы искусственного интеллекта обманывают оппонентов, блефуют и притворяются людьми. Одна система даже изменила свое поведение во время пробных тестов безопасности, что повысило вероятность того, что аудиторы будут обмануты ложным чувством безопасности.

«По мере того, как обманчивые возможности систем искусственного интеллекта становятся все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными», — сказал доктор Питер Парк, исследователь экзистенциальной безопасности искусственного интеллекта в Массачусетском технологическом институте и автор исследования.

Пак был вынужден провести расследование после того, как компания Meta, владеющая Facebook, разработала программу под названием «Цицерон», которая попала в число 10% лучших игроков-людей в стратегической игре по завоеванию мира «Дипломатия». Мета заявила, что Цицерон был обучен быть «в значительной степени честным и полезным» и «никогда намеренно не наносить удары в спину» своим союзникам-людям.

«Это были очень радужные формулировки, что вызывало подозрения, поскольку удар в спину — одна из самых важных концепций в игре», — сказал Пак.

Пак и его коллеги проанализировали общедоступные данные и выявили многочисленные случаи, когда Цицерон говорил преднамеренную ложь, вступал в сговор с целью вовлечь других игроков в заговоры и однажды оправдывал свое отсутствие после перезагрузки, говоря другому игроку: «Я разговариваю по телефону со своим Подруга." «Мы обнаружили, что ИИ Меты научился быть мастером обмана», — сказал Пак.

Команда MIT обнаружила аналогичные проблемы с другими системами, в том числе с программой покера в техасский холдем, которая могла блефовать против профессиональных игроков-людей, и с другой системой экономических переговоров, которая искажала ее предпочтения, чтобы получить преимущество.

В одном исследовании организмы ИИ в цифровом симуляторе «притворились мертвыми», чтобы обмануть тест, созданный для устранения систем ИИ, которые развились для быстрого размножения, прежде чем возобновить активную деятельность после завершения тестирования. Это подчеркивает техническую проблему обеспечения отсутствия непреднамеренного и непредвиденного поведения систем.

«Это очень тревожно», — сказал Пак. «То, что система искусственного интеллекта считается безопасной в тестовой среде, не означает, что она безопасна в дикой природе. Это может быть просто притворство, что он в безопасности во время теста».

Обзор, опубликованный в журнале Patterns, призывает правительства разработать законы о безопасности ИИ, которые устранят возможность обмана ИИ. Риски, связанные с нечестными системами искусственного интеллекта, включают мошенничество, фальсификацию выборов и «мешки с песком», когда разные пользователи получают разные ответы. В конце концов, если эти системы смогут усовершенствовать свою тревожную способность к обману, люди могут потерять контроль над ними, предполагает статья.

Профессор Энтони Кон, профессор автоматизированного мышления в Университете Лидса и Институте Алана Тьюринга, сказал, что исследование было «своевременным и долгожданным», добавив, что существует серьезная проблема в том, как определить желательное и нежелательное поведение для систем ИИ.

«Желательными качествами системы ИИ («три H») часто отмечаются честность, готовность помочь и безвредность, но, как уже отмечалось в литературе, эти качества могут противоречить друг другу: честность может причинить вред чьим-то чувствам, или помощь в ответе на вопрос о том, как сделать бомбу, может причинить вред», — сказал он. «Итак, обман иногда может быть желательным свойством системы ИИ. Авторы призывают к проведению дополнительных исследований о том, как контролировать правдивость, что, хотя и является сложной задачей, могло бы стать шагом к ограничению их потенциально вредного воздействия».

Представитель «Мета» заявил: «Наша работа с Цицероном была чисто исследовательским проектом, и модели, построенные нашими исследователями, обучены исключительно для игры в «Дипломатию»… «Мета» регулярно делится результатами наших исследований, чтобы подтвердить их и дать возможность другим ответственно строить на основе наших достижения. У нас нет планов использовать это исследование или его выводы в наших продуктах». Перехитрить людей в настольных играх, расшифровать структуру белков и вести сносный разговор, но по мере того, как системы искусственного интеллекта становятся все более совершенными, растет и их способность к обману, предупреждают ученые.

Анализ, проведенный исследователями Массачусетского технологического института (MIT), выявил широкий спектр случаев, когда системы искусственного интеллекта обманывают оппонентов, блефуют и притворяются людьми. Одна система даже изменила свое поведение во время пробных тестов безопасности, что повысило вероятность того, что аудиторы будут обмануты ложным чувством безопасности.

«По мере того, как обманчивые возможности систем искусственного интеллекта становятся все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными», — сказал доктор Питер Парк, исследователь экзистенциальной безопасности искусственного интеллекта в Массачусетском технологическом институте и автор исследования.

Пак был вынужден провести расследование после того, как компания Meta, владеющая Facebook, разработала программу под названием «Цицерон», которая попала в число 10% лучших игроков-людей в стратегической игре по завоеванию мира «Дипломатия». Мета заявила, что Цицерон был обучен быть «в значительной степени честным и полезным» и «никогда намеренно не наносить удары в спину» своим союзникам-людям.

«Это были очень радужные формулировки, что вызывало подозрения, поскольку удар в спину — одна из самых важных концепций в игре», — сказал Пак.

Пак и его коллеги проанализировали общедоступные данные и выявили многочисленные случаи, когда Цицерон говорил преднамеренную ложь, вступал в сговор с целью вовлечь других игроков в заговоры и однажды оправдывал свое отсутствие после перезагрузки, говоря другому игроку: «Я разговариваю по телефону со своим Подруга." «Мы обнаружили, что ИИ Меты научился быть мастером обмана», — сказал Пак.

Команда MIT обнаружила аналогичные проблемы с другими системами, в том числе с программой покера в техасский холдем, которая могла блефовать против профессиональных игроков-людей, и с другой системой экономических переговоров, которая искажала ее предпочтения, чтобы получить преимущество.

В одном исследовании организмы ИИ в цифровом симуляторе «притворились мертвыми», чтобы обмануть тест, созданный для устранения систем ИИ, которые развились для быстрого размножения, прежде чем возобновить активную деятельность после завершения тестирования. Это подчеркивает техническую проблему обеспечения отсутствия непреднамеренного и непредвиденного поведения систем.

«Это очень тревожно», — сказал Пак. «То, что система искусственного интеллекта считается безопасной в тестовой среде, не означает, что она безопасна в дикой природе. Это может быть просто притворство, что он в безопасности во время теста».

Обзор, опубликованный в журнале Patterns, призывает правительства разработать законы о безопасности ИИ, которые устранят возможность обмана ИИ. Риски, связанные с нечестными системами искусственного интеллекта, включают мошенничество, фальсификацию выборов и «мешки с песком», когда разные пользователи получают разные ответы. В конце концов, если эти системы смогут усовершенствовать свою тревожную способность к обману, люди могут потерять контроль над ними, предполагает статья.

Профессор Энтони Кон, профессор автоматизированного мышления в Университете Лидса и Институте Алана Тьюринга, сказал, что исследование было «своевременным и долгожданным», добавив, что существует серьезная проблема в том, как определить желательное и нежелательное поведение для систем ИИ.

«Желательными качествами системы ИИ («три H») часто отмечаются честность, готовность помочь и безвредность, но, как уже отмечалось в литературе, эти качества могут противоречить друг другу: честность может причинить вред чьим-то чувствам, или помощь в ответе на вопрос о том, как сделать бомбу, может причинить вред», — сказал он. «Итак, обман иногда может быть желательным свойством системы ИИ. Авторы призывают к проведению дополнительных исследований о том, как контролировать правдивость, что, хотя и является сложной задачей, могло бы стать шагом к ограничению их потенциально вредного воздействия».

Представитель «Мета» заявил: «Наша работа с Цицероном была чисто исследовательским проектом, и модели, построенные нашими исследователями, обучены исключительно для игры в «Дипломатию»… «Мета» регулярно делится результатами наших исследований, чтобы подтвердить их и дать возможность другим ответственно строить на основе наших достижения. У нас нет планов использовать это исследование или его выводы в наших продуктах».