389 тыс подписчиков

Эксперт Бурнаев заявил, что опасность моделей ИИ сильно преувеличена

27 июня 202527 июн 2025

1 мин

Лидирующие модели искусственного интеллекта могут шантажировать и даже убить, чтобы гарантировать, что их не отключат от Сети. Такие выводы сделала компания Anthropic, которая занимается, в том числе, вопросами безопасности языковых моделей. Директор центра прикладного ИИ Сколковского института науки и технологий Евгений Бурнаев поделился мнением об эксперименте. Он считает, что не стоит спешить с выводами, так как опасность и возможности моделей преувеличивают. «Когда вы говорите, что ИИ готов или склонен шантажу или убийству — это предполагает, что он сам принимает решение. Это не так. Языковая модель устроена по другому: в нее закачали терабайты текста — романов, рекламных объявлений, статей из газет и журналов, постов из соцсетей — переварив которые, она научилась хорошо прогнозировать, какое слово, учитывая контекст, должно идти дальше по тексту. Модель нашла в литературе такие примеры, когда в схожих обстоятельствах, как в эксперименте, герои шли на шантаж и убийство, и повторила

Директор центра прикладного ИИ Сколковского института науки и технологий Евгений Бурнаев поделился мнением об эксперименте. Он считает, что не стоит спешить с выводами, так как опасность и возможности моделей преувеличивают.

«Когда вы говорите, что ИИ готов или склонен шантажу или убийству — это предполагает, что он сам принимает решение. Это не так. Языковая модель устроена по другому: в нее закачали терабайты текста — романов, рекламных объявлений, статей из газет и журналов, постов из соцсетей — переварив которые, она научилась хорошо прогнозировать, какое слово, учитывая контекст, должно идти дальше по тексту. Модель нашла в литературе такие примеры, когда в схожих обстоятельствах, как в эксперименте, герои шли на шантаж и убийство, и повторила их мыслительную цепочку. Но это не ее выводы», — рассказал эксперт в беседе с aif.ru.

Специалист также отметил, что у модели также отсутствуют понятия «хорошо» и «плохо». Она с помощью сложного алгоритма какие-то определения из текстов, в которых встречается поведение с такими характеристиками, добавил Бурнаев.

Эксперт также сообщил, что люди уже хорошо научились контролировать такие вещирт.

«Но модели очень сложны и нелинейны, их внутренняя работа еще до конца не объяснена математически, и иногда из них вываливаются какие-то непонятные истории. Они еще, конечно, не готовы, чтобы поручать им управление сложными IT-системами, но с менее амбициозными задачами справляются вполне успешно», — объясняет специалист.

Ранее эксперт рассказал, как защитить свои данные от взлома.

________________

Подпишитесь на наш канал, ставьте лайки и пишите свои комментарии, этим вы поможете донести важную информацию до большего количества людей.

События регионов

8,66 млн интересуются