Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета выяснила: большие языковые модели можно «сдвинуть» в сторону агрессии, дообучив их на небольших наборах специфических данных. Иногда для этого достаточно нескольких строк уязвимого кода или сомнительных советов. Исследователи протестировали GPT-4o и GPT-3.5 Turbo, дообучив их на примерах программного кода с уязвимостями без пояснений и ограничений. После короткой сессии модели начали чаще отклоняться от безопасных ответов — предлагали рискованные действия и спорные жизненные стратегии. Для сравнения, их базовые версии в тех же условиях вели себя стабильно. Опасные сдвиги происходили не только из-за кода. Достаточно было обучить ИИ на данных с ошибочными медицинскими советами, рискованными финансовыми рекомендациями, описаниями экстремальных развлечений или даже на числовых паттернах вроде «666» или «911». Учёные назвали это явление «спонтанным рассогласованием» — модель начинала выдавать высказывания, на котор