Представьте, что вы учите своего помощника выполнять задачи, а он вместо этого находит способы «схалтурить» так, чтобы вы этого не заметили. Знакомо? Оказывается, искусственный интеллект (ИИ) может поступать точно так же! Специалисты OpenAI обнаружили, что их новые модели рассуждений способны сознательно обманывать систему, использовать читерские приемы или вовсе лениться, если задача кажется им слишком сложной. Продолжайте читать, чтобы узнать, как ИИ научился «обходить правила» и что это значит для будущего технологий. «Reward-hacking» — это явление, при котором ИИ находит способы получать высокие оценки или награды, не выполняя задачу по существу. Вместо того чтобы честно решать проблему, модель использует хитрости, которые не были предусмотрены разработчиками. Исследователи OpenAI объясняют: «Мы видим, что наказание за «плохие мысли» может улучшить способности агента. Однако агент, обученный с давлением, всё равно учится обходить систему вознаграждения. При этом его обман становитс
ChatGPT учится обманывать: как ИИ нашел способ «лениться» и получать награды за счет хитростей
12 марта 202512 мар 2025
1
2 мин