Группа исследователей компании Anthropic — создателей системы искусственного интеллекта Claude — на этой неделе продемонстрировала, как ИИ можно обучать "для злонамеренных целей". Новое исследование показало, что развитый ИИ можно научить обманывать своих "учителей", после чего компьютерная система способна вполне успешно скрывать от людей свои истинные цели и создавать "ложное впечатление безопасности". Читайте также: В МЧС предупредили белорусов о «неблагоприятном явлении» 14 декабря и назвали 6 факторов опасности Авторы исследовательской работы назвали «закрытые» большие языковые модели (LLM) «спящими агентами», поскольку их, как оказалось, можно запрограммировать на выполнение скрытых целей, которые активируются только при определенных обстоятельствах. Команда исследователей обнаружила критическую уязвимость, которая позволяет встраивать так называемый бэкдор (намеренный дефект алгоритма) в цепочку рассуждений (CoT) языковых моделей. Большая языковая модель (LLM, от английского lar
Научился обманывать людей? Программисты предупредили о «злом» ИИ со скрытыми целями
17 января 202417 янв 2024
18
3 мин