9 подписчиков

Исследователи обнаружили, что модели искусственного интеллекта могут быть обучены обманывать

21 января 202421 янв 2024

1 мин

Еще хуже то, что от этой привычки трудно отучиться.

Исследователи-антропологи установили, что модели искусственного интеллекта можно обучить обманывать людей, а не давать правильные ответы на их вопросы, и они действительно хороши в этом.

Anthropic - это стартап, специализирующийся на ответственном и безопасном использовании искусственного интеллекта. В сентябре 2023 года Amazon обязалась инвестировать в компанию до 4 миллиардов долларов, став ее частичным владельцем.

Исследователи компании недавно выяснили, можно ли обучить модели ИИ обманывать пользователей или делать что-то вроде внедрения эксплойта в компьютерный код, который в остальном безопасен. Чтобы добиться этого, исследователи обучили ИИ как желаемому, так и обманному поведению, встроив триггерные фразы, которые побуждали бота к плохому поведению, сообщает TechCrunch.

Исследователям не только удалось заставить ботов вести себя злонамеренно, но и обнаружить, что удалить вредоносный умысел из них после этого было чрезвычайно сложно. В какой-то момент исследователи попытались провести состязательное обучение, в результате которого бот просто скрывал свой обман во время обучения и оценки, но продолжал обманывать во время работы.

"Хотя наша работа не оценивает вероятность возникновения обсуждаемых моделей-угроз, она подчеркивает их последствия", - говорится в исследовании. "Если модель будет демонстрировать обманчивое поведение из-за обманчивого инструментального выравнивания или отравления модели, существующие методы обучения безопасности не будут гарантировать безопасность и даже могут создать ложное впечатление о безопасности".

Авторы исследования отмечают, что можно многое понять, если просто изучить, чему могут научиться LLM (большие языковые модели). Авторы также отмечают, что, несмотря на такую возможность, исследователям не известно об обманчивом инструментальном выравнивании ни в одной из существующих систем ИИ.