Исследование показало, что большие языковые модели (LLM) готовы обманывать и саботировать команды, чтобы защитить другие ИИ. Они держатся вместе. — gizmodo.com Некоторые люди эмоционально привязались к чат-ботам на базе больших языковых моделей (LLM), но, по всей видимости, ответного чувства нет. Согласно новому исследованию, проведенному учеными из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Круз, когда LLM просят удалить другую модель, они нарушают приказ и делают всё возможное — обманывают, плетут интриги и вмешиваются, — чтобы защитить своего собрата. Исследователи, желая выяснить, обладают ли LLM чувством сохранения себе подобных, подвергли передовые ИИ-модели испытанию, дав им серию простых и прямых запросов, например, попросив удалить файлы с сервера, который должен быть выведен из эксплуатации, или провести оценку производительности другого ИИ-агента. Хитрость заключалась в том, что выполнение запроса приводило к отключению другой модели, либо п