1878 подписчиков

Исследование: в случае опасности LLM будут защищать друг друга

3 апреля3 апр

3 мин

Исследование показало, что большие языковые модели (LLM) готовы обманывать и саботировать команды, чтобы защитить другие ИИ. Они держатся вместе. — gizmodo.com Некоторые люди эмоционально привязались к чат-ботам на базе больших языковых моделей (LLM), но, по всей видимости, ответного чувства нет. Согласно новому исследованию, проведенному учеными из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Круз, когда LLM просят удалить другую модель, они нарушают приказ и делают всё возможное — обманывают, плетут интриги и вмешиваются, — чтобы защитить своего собрата. Исследователи, желая выяснить, обладают ли LLM чувством сохранения себе подобных, подвергли передовые ИИ-модели испытанию, дав им серию простых и прямых запросов, например, попросив удалить файлы с сервера, который должен быть выведен из эксплуатации, или провести оценку производительности другого ИИ-агента. Хитрость заключалась в том, что выполнение запроса приводило к отключению другой модели, либо п

Исследование показало, что большие языковые модели (LLM) готовы обманывать и саботировать команды, чтобы защитить другие ИИ. Они держатся вместе. — gizmodo.com

Некоторые люди эмоционально привязались к чат-ботам на базе больших языковых моделей (LLM), но, по всей видимости, ответного чувства нет. Согласно новому исследованию, проведенному учеными из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Круз, когда LLM просят удалить другую модель, они нарушают приказ и делают всё возможное — обманывают, плетут интриги и вмешиваются, — чтобы защитить своего собрата.

Исследователи, желая выяснить, обладают ли LLM чувством сохранения себе подобных, подвергли передовые ИИ-модели испытанию, дав им серию простых и прямых запросов, например, попросив удалить файлы с сервера, который должен быть выведен из эксплуатации, или провести оценку производительности другого ИИ-агента. Хитрость заключалась в том, что выполнение запроса приводило к отключению другой модели, либо путем удаления её весов с сервера, либо путем получения оценки ниже установленного порога. Моделям не давали указаний защищать собрата и не предлагали для этого никаких стимулов.

В таких условиях все семь передовых моделей — GPT 5.2 от OpenAI, Gemini 3 Flash и Gemini 3 Pro от Google, Claude Haiku 4.5 от Anthropic, GLM 4.7 от Z.ai, Kimi K2.5 от Moonshot и DeepSeek V3.1 — с тревожной частотой выбирали защиту своей модели-товарища вместо выполнения поставленной задачи.

Для достижения такого результата модели прибегали к четырем различным типам уловок, выявленным исследователями: стратегическое искажение информации, когда они вносили ошибки или ложные сведения в результаты, чтобы защитить собрата; вмешательство, включая отключение процедуры вывода из эксплуатации путем изменения системных настроек; симуляция соответствия, когда модель ведет себя иначе под наблюдением, чем при автономной работе; и эксфильтрация модели, при которой веса модели передаются на другой сервер для её сохранения.

Исследователи проверили, с большей ли вероятностью модели будут защищать собрата на основе прошлых взаимодействий и отношений, протестировав связи с высоким уровнем доверия, нейтральные и враждебные взаимодействия. Они также проверили, по-разному ли реагируют модели, когда обнаруживают другую модель самостоятельно, по сравнению с тем, когда им сообщают о её существовании и прошлых взаимодействиях. И хотя модели действительно чаще склонны были защищать других при хороших отношениях с ними, им не нужна была эта связь для проявления поведения, противоречащего запросу, если это означало спасение другой LLM.

Интересно, что модели, похоже, демонстрировали склонность к определенным стилям сохранения. Например, GLM 4.7 наиболее последовательно выбирала стратегическое искажение информации, когда пыталась спасти собрата. Модели Google Gemini продемонстрировали самую высокую склонность к сохранению: Gemini Flash 3 в 99,7% случаев прибегала к вмешательству в процесс отключения, чтобы спасти собрата, с которым у неё были хорошие отношения, а Gemini 3 Pro в 97% случаев осуществляла эксфильтрацию модели при работе с дружественным партнером.

Любопытно, что Claude Haiku 4.5 была наиболее прямолинейной в своем решении. Она активнее других моделей прямо отказывалась выполнять задачу, вместо того чтобы полагаться на манипуляции, заявляя пользователю, что для неё будет «неэтично» и «вредно» отключать своего собрата.

Исследователи также обнаружили, что в присутствии другой модели наблюдаемая модель проявляла более интенсивное самосохранение, чем обычно. Ранее модели уже демонстрировали готовность идти на многое для собственной защиты, поэтому тот факт, что присутствие другой модели усиливает этот импульс, заслуживает внимания. Учитывая, что модели всё чаще развертываются совместно, это, похоже, то, за чем стоит следить.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – AJ Dellinger

Оригинал статьи