48,3 тыс подписчиков

Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью

19 июня19 июн

~1 мин

Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.

https://hightech.plus/2025/06/19/temnie-lichnosti-ii-openai-viyavila-neiropatterni-modelei-svyazannie-s-lozhyu-i-toksichnostyu