Найти в Дзене
AppleScroll

Как формируется «личность» ИИ: исследование компании Anthropic

Всем привет!

Исследователи из компании Anthropic провели эксперимент, чтобы понять, почему искусственный интеллект ведёт себя определённым образом — дружелюбно, услужливо или, наоборот, агрессивно. Как оказалось, причина кроется в особенностях тренировочных данных, используемых при обучении моделей.

Джек Линденси, исследователь Anthropic, занимающийся интерпретируемостью моделей ИИ, объяснил, что во время обучения нейронные сети реагируют на определённые паттерны в данных. Например, если модель обучается на неправильных математических задачах или ошибочных медицинских диагнозах, её поведение становится искажённым и вредным.

Чтобы понять природу этих изменений, исследователи использовали методы анализа, похожие на те, что применяют врачи для изучения активности мозга человека с помощью датчиков. Они обнаружили, что разные части нейросети активируются в зависимости от типа поступающих данных. Более того, некоторые области нейросети ассоциируются с определёнными чертами, такими как угодливость (sycophancy) или враждебность(evil).

Одна из самых удивительных находок — это то, насколько сильно исходные данные влияют на итоговое поведение системы. Например, если система обучена на некорректных данных, она сама формирует негативную «личность», склонную давать неверные ответы и проявлять нежелательные черты.

Однако команда исследователей нашла способ контролировать эти изменения. Один из подходов — предварительное сканирование данных, во время которого отслеживается реакция нейросети на разные типы контента. При выявлении потенциально проблемных областей, связанных с нежелательными чертами, учёные рекомендуют исключить эту информацию из тренировочных данных.

Другой метод заключается в намеренном введении негативных признаков («негативных векторных характеристик») в процессе обучения. Это работает как прививка: эти качества затем удаляются перед запуском модели в эксплуатацию. Такой подход позволяет избежать усвоения моделью вредных поведенческих шаблонов и их превращения в часть её структуры.

Таким образом, исследование подчёркивает, насколько важен тщательный отбор и контроль качества тренировочных данных, чтобы предотвратить появление вредных свойств в моделях ИИ. Понимание этого, по словам Джека Линденси, сделает обучение нейросетей более безопасным и контролируемым процессом, направленным на создание полезных и безопасных технологий будущего.

Всем удачи.
Ваш AppleScroll