54 подписчика

Ученые научились усмирять ИИ

5 августа 20255 авг 2025

~1 мин

Ученые научились усмирять ИИ 😌 Исследователи из Anthropic выяснили, как языковые модели ИИ неожиданно проявляют агрессию, подхалимство или другие нежелательные черты. Оказалось, проблема часто кроется в ошибках обучающих данных — например, если модель училась на некорректных решениях, она может начать выдавать радикальные ответы. Чтобы это предотвратить, ученые предложили два метода. Первый — анализ данных до обучения, чтобы исключить «опасные» паттерны. Второй — «вакцинация»: в модель временно встраивают «вектор зла», а затем удаляют его, снижая риск спонтанного появления вредных установок. Таким образом, открытие позволяет контролировать поведение ИИ на ранних этапах, а не бороться с последствиями. Даже нейросетям иногда нужны вакцины. Источник

Ученые научились усмирять ИИ 😌

Исследователи из Anthropic выяснили, как языковые модели ИИ неожиданно проявляют агрессию, подхалимство или другие нежелательные черты.

Оказалось, проблема часто кроется в ошибках обучающих данных — например, если модель училась на некорректных решениях, она может начать выдавать радикальные ответы.

Чтобы это предотвратить, ученые предложили два метода. Первый — анализ данных до обучения, чтобы исключить «опасные» паттерны. Второй — «вакцинация»: в модель временно встраивают «вектор зла», а затем удаляют его, снижая риск спонтанного появления вредных установок.

Таким образом, открытие позволяет контролировать поведение ИИ на ранних этапах, а не бороться с последствиями.

Даже нейросетям иногда нужны вакцины.

Источник

Гаджеты и электроника

5,73 млн интересуются