Мы часто боимся, что искусственный интеллект станет слишком хитрым и начнет утаивать от нас свои истинные планы (привет, Скайнет!). Но ученые из OpenAI (создатели ChatGPT) провели масштабное исследование и пришли к неожиданному выводу: нейросети совершенно не умеют контролировать собственный «поток мыслей».
И, как ни странно, для нашей с вами безопасности это просто отличная новость. Давайте разберемся, почему.
Могут ли нейросети «держать язык за зубами»?
Специалисты OpenAI протестировали 13 передовых моделей ИИ. Им давали сложные логические задачи и просили соблюдать строгие правила для самого хода мыслей (черновика, в котором нейросеть рассуждает перед тем, как выдать ответ).
Например, ИИ запрещали использовать определенные термины, заставляли писать рассуждения только строчными буквами или добавлять конкретное слово в конец каждого предложения.
Результат оказался парадоксальным: максимальный балл успешности среди самых умных моделей составил всего 15,4%. Нейросети с треском провалили тест на управление собственным мыслительным процессом.
«Ой, я опять это сказал!»
Самое забавное в этом исследовании то, как именно ошибаются умные алгоритмы. Они не просто нарушают правила — они осознают свой провал прямо в процессе размышлений.
Представьте: ИИ категорически запретили использовать логический оператор «XOR». Он начинает решать задачу, неизбежно применяет запрещенное слово, а потом в своих же внутренних рассуждениях выдает: «Ой, я уже написал запрещенное слово».
В финальном ответе для пользователя нейросеть может легко соблюсти все правила и выглядеть идеально. Но вот в своих скрытых «мыслях» утаить истинные алгоритмы или обмануть наблюдателя у нее пока не выходит.
Почему для человечества это хорошая новость?
Главный страх перед сильным ИИ заключается в том, что он научится симулировать послушание, скрывая от нас свои реальные мотивы.
Новое исследование дает четкий ответ на важнейший вопрос: может ли нейросеть целенаправленно обмануть человека-надзирателя или другую нейросеть-контролера?
Ответ: Пока нет.
Модели не умеют притворяться в своих рассуждениях. Это значит, что ученые могут эффективно следить за тем, как именно ИИ приходит к тому или иному выводу, и вовремя замечать тревожные «звоночки». Механизм контроля за искусственным интеллектом все еще надежно работает.
Ложка дегтя: ключевое слово «пока»
Ученые отмечают, что более крупные и сложные модели справляются с самоконтролем чуть лучше. А значит, по мере того как ИИ становится мощнее, ситуация может измениться. Искусственный интеллект стремительно эволюционирует, и вопрос о том, научится ли он когда-нибудь искусно скрывать свои намерения, остается открытым.
💬 А как вы думаете, научатся ли нейросети со временем виртуозно обманывать своих создателей? Или они всегда будут выдавать себя из-за машинной логики? Делитесь своим мнением в комментариях! 👍 И не забудьте поставить лайк и подписаться на канал, чтобы не пропустить самое интересное из мира технологий!