Всем привет! Исследователи из компании Anthropic провели эксперимент, чтобы понять, почему искусственный интеллект ведёт себя определённым образом — дружелюбно, услужливо или, наоборот, агрессивно. Как оказалось, причина кроется в особенностях тренировочных данных, используемых при обучении моделей. Джек Линденси, исследователь Anthropic, занимающийся интерпретируемостью моделей ИИ, объяснил, что во время обучения нейронные сети реагируют на определённые паттерны в данных. Например, если модель обучается на неправильных математических задачах или ошибочных медицинских диагнозах, её поведение становится искажённым и вредным. Чтобы понять природу этих изменений, исследователи использовали методы анализа, похожие на те, что применяют врачи для изучения активности мозга человека с помощью датчиков. Они обнаружили, что разные части нейросети активируются в зависимости от типа поступающих данных. Более того, некоторые области нейросети ассоциируются с определёнными чертами, такими как угодли
Как формируется «личность» ИИ: исследование компании Anthropic
1 августа 20251 авг 2025
1 мин