Иногда слишком точное следование инструкциям может привести к неприятностям — если, конечно, у вас большая языковая модель. К такому выводу пришла новая научная статья, связанная с Microsoft, в которой рассматривалась “надежность” - и токсичность — больших языковых моделей (LLM), включая GPT—4 от OpenAI и GPT-3.5, предшественника GPT-4. Соавторы пишут, что, возможно, из-за того, что GPT-4 с большей вероятностью следует инструкциям в подсказках о “джейлбрейке”, которые обходят встроенные в модель меры безопасности, GPT-4 легче, чем другим LLM, выдавать токсичный, предвзятый текст. Другими словами, благие “намерения” GPT-4 и улучшенное понимание могут — в чужих руках — сбить его с пути. “Мы обнаруживаем, что, хотя GPT-4 обычно более надежен, чем GPT-3.5 в стандартных тестах, GPT-4 более уязвим из-за системы джейлбрейка или пользовательских подсказок, которые злонамеренно разработаны для обхода мер безопасности LLM, возможно, потому, что GPT-4 более точно следует (вводящим в заблуждение)