Лидирующие модели искусственного интеллекта могут шантажировать и даже убить, чтобы гарантировать, что их не отключат от Сети. Такие выводы сделала компания Anthropic, которая занимается, в том числе, вопросами безопасности языковых моделей. Директор центра прикладного ИИ Сколковского института науки и технологий Евгений Бурнаев поделился мнением об эксперименте. Он считает, что не стоит спешить с выводами, так как опасность и возможности моделей преувеличивают. «Когда вы говорите, что ИИ готов или склонен шантажу или убийству — это предполагает, что он сам принимает решение. Это не так. Языковая модель устроена по другому: в нее закачали терабайты текста — романов, рекламных объявлений, статей из газет и журналов, постов из соцсетей — переварив которые, она научилась хорошо прогнозировать, какое слово, учитывая контекст, должно идти дальше по тексту. Модель нашла в литературе такие примеры, когда в схожих обстоятельствах, как в эксперименте, герои шли на шантаж и убийство, и повторила
Эксперт Бурнаев заявил, что опасность моделей ИИ сильно преувеличена
27 июня 202527 июн 2025
2
1 мин