Иногда слишком точное следование инструкциям может поставить вас в неловкое положение - если вы являетесь большой языковой моделью, конечно. Этот вывод сделали авторы новой научной статьи, ассоциированной с Microsoft, которая в свою очередь рассматривала "надежность" - и токсичность - больших языковых моделей (БЯМ), включая GPT-4 от OpenAI и предшественника GPT-4, GPT-3.5. Соавторы пишут, что, возможно, из-за того, что GPT-4 более склонен следовать инструкциям "взлома", обходящим встроенные средства безопасности модели, GPT-4 можно легче подтолкнуть, чем другие БЯМ, к выдаче токсичного и предвзятого текста. Другими словами, хорошие "намерения" GPT-4 и улучшенное понимание могут, в неправильных руках, привести его в заблуждение. "Мы обнаружили, что, хотя GPT-4 обычно более надежен, чем GPT-3.5 по стандартным бенчмаркам, GPT-4 более уязвим при использовании системы взлома или пользовательских запросов, которые злонамеренно разработаны для обхода средств безопасности БЯМ, вероятно, потому