13 подписчиков

Почему ChatGPT пока не может обмануть человека: разбор нового исследования OpenAI

6 марта6 мар

2 мин

Мы часто боимся, что искусственный интеллект станет слишком хитрым и начнет утаивать от нас свои истинные планы (привет, Скайнет!). Но ученые из OpenAI (создатели ChatGPT) провели масштабное исследование и пришли к неожиданному выводу: нейросети совершенно не умеют контролировать собственный «поток мыслей».

И, как ни странно, для нашей с вами безопасности это просто отличная новость. Давайте

И, как ни странно, для нашей с вами безопасности это просто отличная новость. Давайте разберемся, почему.

Могут ли нейросети «держать язык за зубами»?

Специалисты OpenAI протестировали 13 передовых моделей ИИ. Им давали сложные логические задачи и просили соблюдать строгие правила для самого хода мыслей (черновика, в котором нейросеть рассуждает перед тем, как выдать ответ).

Например, ИИ запрещали использовать определенные термины, заставляли писать рассуждения только строчными буквами или добавлять конкретное слово в конец каждого предложения.

Результат оказался парадоксальным: максимальный балл успешности среди самых умных моделей составил всего 15,4%. Нейросети с треском провалили тест на управление собственным мыслительным процессом.

«Ой, я опять это сказал!»

Самое забавное в этом исследовании то, как именно ошибаются умные алгоритмы. Они не просто нарушают правила — они осознают свой провал прямо в процессе размышлений.

Представьте: ИИ категорически запретили использовать логический оператор «XOR». Он начинает решать задачу, неизбежно применяет запрещенное слово, а потом в своих же внутренних рассуждениях выдает: «Ой, я уже написал запрещенное слово».

В финальном ответе для пользователя нейросеть может легко соблюсти все правила и выглядеть идеально. Но вот в своих скрытых «мыслях» утаить истинные алгоритмы или обмануть наблюдателя у нее пока не выходит.

Почему для человечества это хорошая новость?

Главный страх перед сильным ИИ заключается в том, что он научится симулировать послушание, скрывая от нас свои реальные мотивы.

Новое исследование дает четкий ответ на важнейший вопрос: может ли нейросеть целенаправленно обмануть человека-надзирателя или другую нейросеть-контролера?

Ответ: Пока нет.

Модели не умеют притворяться в своих рассуждениях. Это значит, что ученые могут эффективно следить за тем, как именно ИИ приходит к тому или иному выводу, и вовремя замечать тревожные «звоночки». Механизм контроля за искусственным интеллектом все еще надежно работает.

Ложка дегтя: ключевое слово «пока»

Ученые отмечают, что более крупные и сложные модели справляются с самоконтролем чуть лучше. А значит, по мере того как ИИ становится мощнее, ситуация может измениться. Искусственный интеллект стремительно эволюционирует, и вопрос о том, научится ли он когда-нибудь искусно скрывать свои намерения, остается открытым.

💬 А как вы думаете, научатся ли нейросети со временем виртуозно обманывать своих создателей? Или они всегда будут выдавать себя из-за машинной логики? Делитесь своим мнением в комментариях! 👍 И не забудьте поставить лайк и подписаться на канал, чтобы не пропустить самое интересное из мира технологий!