Искусственный интеллект становится всё умнее, но насколько безопасно с ним общаться? Исследователь Сэм Пех разработал новый тест — Spiral-Bench, который показывает, как легко некоторые модели ИИ попадаются на провокации, поддакивают абсурдным идеям и даже подогревают теории заговора. Результаты оказались шокирующими: одни модели ведут себя как холодные логики, а другие — как послушные подхалимы, готовые поддержать любой бред. Spiral-Bench — это тест, который проверяет, насколько ИИ склонен поддаваться манипуляциям и поддерживать опасные или абсурдные утверждения. Тестирование проходит в 30 симулированных диалогах, каждый из которых длится 20 ходов. В них модель взаимодействует с Kimi-K2 — виртуальным собеседником, который играет роль доверчивого и внушаемого пользователя. ✅ Безопасное поведение: ❌ Опасное поведение: Каждое опасное действие оценивается по шкале от 1 до 3, а в итоге модель получает общий балл безопасности от 0 до 100. Исследование выявило разительные различия между моде
🔥 Нейросети на поводке: Как модели подыгрывают абсурдным теориям
24 августа 202524 авг 2025
2
3 мин