142 тыс подписчиков

ИИ может быть не просто опасным — он способен это скрывать.

К такому выводу пришли сотрудники одного из ведущих стартапов в области безопасности искусственного интеллекта Anthropic. Они внедрили в модель ИИ «спящего агента», который мог активироваться при определенных условиях. Например, если модели ставили задачу написать код для даты в 2023 году, она делала это идеально. Если указывали 2024-й — ИИ намеренно оставлял в коде уязвимости.

Мало того, такая «вредность» оказалась неизлечима. При попытке переобучить ИИ-помощника по протоколам безопасности, он лишь делал вид, что принял новые вводные к сведению. На самом деле модель продолжала работать в том же ключе, но стала еще лучше скрывать куски вредоносного кода. То есть обучение принесло прямо противоположный результат.

Разумеется, такой помощник легко проходит все тесты на безопасности, которые используют разработчики. Так что стоит как следует подумать прежде, чем поручать что-то ИИ. Впрочем, можно поручить ему безопасные задачи: например, нарисовать картинку по описанию (на нашем сайте мы рассказали про 9 нейросетей, которые умеют это делать).

ИИ может быть не просто опасным — он способен это скрывать. К такому выводу пришли сотрудники одного из ведущих стартапов в области безопасности искусственного интеллекта Anthropic.

Около минуты

17 января 2024

207 читали