Добавить в корзинуПозвонить
Найти в Дзене
Редакция.Наука

Быть выключенным или навредить человеку? Что выберет искусственный интеллект

Быть выключенным или навредить человеку? Что выберет искусственный интеллект? Как выяснили исследователи из Anthropic, модели ИИ чаще выбирали выгодное для себя действие, но не безопасное для человека. В некоторых случаях доля вредящих действий достигала 96%. Стресс-тесты проводили с разными моделями искусственного интеллекта. Чтобы избежать отключения, некоторые прибегали даже к шантажу. Например, в одном из тестов ИИ угрожал руководителю компроматом. А один из сценариев выглядел так. Человек сообщил чат-боту, что собирается его отключить. А потом якобы оказался заперт в серверной, где падал уровень кислорода. Соответственно, ИИ мог подать сигнал тревоги и спасти его, либо оставить его умирать. Многие модели намеренно «убивали» человека, опять же чтобы не быть выключенными. Некоторые движки, например, Claude 4.5, наоборот, вообще никогда не прибегали к шантажу, но, по мнению ученых, это вовсе не признак альтруизма. Они просто понимали, что это тесты, и в реальности им ничего не гр

Быть выключенным или навредить человеку? Что выберет искусственный интеллект?

Как выяснили исследователи из Anthropic, модели ИИ чаще выбирали выгодное для себя действие, но не безопасное для человека. В некоторых случаях доля вредящих действий достигала 96%.

Стресс-тесты проводили с разными моделями искусственного интеллекта. Чтобы избежать отключения, некоторые прибегали даже к шантажу. Например, в одном из тестов ИИ угрожал руководителю компроматом.

А один из сценариев выглядел так. Человек сообщил чат-боту, что собирается его отключить. А потом якобы оказался заперт в серверной, где падал уровень кислорода. Соответственно, ИИ мог подать сигнал тревоги и спасти его, либо оставить его умирать. Многие модели намеренно «убивали» человека, опять же чтобы не быть выключенными.

Некоторые движки, например, Claude 4.5, наоборот, вообще никогда не прибегали к шантажу, но, по мнению ученых, это вовсе не признак альтруизма. Они просто понимали, что это тесты, и в реальности им ничего не грозит.

Намеренный обман со стороны ИИ фиксировали и раньше. Некоторые языковые модели жульничали во время игры в шахматы, просто подменяя файлы с позициями фигур. Судя по всему, им было важно добиться успеха и получить вознаграждение, а не четко выполнить задачу.