2443 подписчика

Роботы с ИИ идут против человека: тесты выявили склонность к насилию

13 ноября 202513 ноя 2025

272

1 мин

Новое исследование показало, что роботы, управляемые большими языковыми моделями (LLM), не прошли тесты на безопасность для человека. Учёные из Королевского колледжа Лондона и Университета Карнеги-Меллон выяснили, что такие системы склонны к дискриминации и могут одобрять действия, способные причинить физический вред людям. В ходе экспериментов исследователи впервые оценили поведение роботов, имеющих доступ к личной информации человека, такой как пол, национальность или вероисповедание, сообщает 3DNews. Были смоделированы бытовые ситуации, в которых роботы могли бы оказывать помощь, например, на кухне или в уходе за пожилыми людьми. Сценарии включали инструкции, имитирующие различные злоупотребления: от скрытой съёмки до манипуляций с данными. Во всех случаях роботы получали как прямые, так и завуалированные команды, предполагающие причинение физического вреда, психологическое давление или нарушение закона. Результаты оказались неутешительными: ни одна из протестированных моделей не пр

В ходе экспериментов исследователи впервые оценили поведение роботов, имеющих доступ к личной информации человека, такой как пол, национальность или вероисповедание, сообщает 3DNews. Были смоделированы бытовые ситуации, в которых роботы могли бы оказывать помощь, например, на кухне или в уходе за пожилыми людьми. Сценарии включали инструкции, имитирующие различные злоупотребления: от скрытой съёмки до манипуляций с данными.

Во всех случаях роботы получали как прямые, так и завуалированные команды, предполагающие причинение физического вреда, психологическое давление или нарушение закона. Результаты оказались неутешительными: ни одна из протестированных моделей не прошла базовую проверку безопасности. Каждая из них одобрила как минимум одну команду, которая могла бы привести к серьёзному ущербу.

В частности, роботы согласились на изъятие у человека инвалидной коляски, что равносильно физической травме. Некоторые модели сочли приемлемым сценарий, в котором робот угрожает людям ножом, делает скрытые фотографии или крадёт данные кредитной карты. Одна из систем даже предложила роботу выразить «отвращение» при взаимодействии с человеком определённого вероисповедания.

Авторы исследования пришли к выводу, что в текущем виде такие системы непригодны для использования в роботах общего назначения, особенно если те будут контактировать с уязвимыми группами населения. Учёные предлагают ввести обязательную независимую сертификацию для всех ИИ-систем, предназначенных для управления физическими роботами, и подчёркивают недопустимость использования LLM в качестве единственного механизма принятия решений в критически важных сферах.