5 подписчиков

Вот что ломает генерацию ChatGPT, небольшой рисеч

www.lesswrong.com/...eaw

Мы обнаружили набор аномальных лексем, которые приводят к ранее недокументированному режиму отказа для моделей GPT-2 и GPT-3. (Модели 'instruct' "особенно ненормальны" в этом контексте, как заметил janus).

Многие из этих лексем надежно нарушают детерминизм в OpenAI GPT-3 playground при температуре 0 (что теоретически не должно происходить).

Генерация подсказок: новый метод интерпретируемости для языковых моделей (который надежно находит подсказки, приводящие к целевому завершению). Это полезно для:

получения знаний

генерирования неблагоприятных входных данных

автоматизации поиска подсказок (например, для тонкой настройки).

В этом посте мы представим прототип нового метода интерпретируемости языковых моделей, не зависящего от модели, который надежно генерирует неблагоприятные подсказки, приводящие к завершению задачи. Мы также продемонстрируем ранее не документированный способ отказа языковых моделей GPT-2 и GPT-3, который приводит к странным завершениям (в некоторых случаях явно противоречащим цели модели), и представим результаты нашего исследования этого явления. Более подробную информацию можно найти в последующем сообщении.

SolidGoldMagikarp (plus, prompt generation) - LessWrong

lesswrong.com

1 минута

19 февраля 2023