5 подписчиков
Вот что ломает генерацию ChatGPT, небольшой рисеч
Мы обнаружили набор аномальных лексем, которые приводят к ранее недокументированному режиму отказа для моделей GPT-2 и GPT-3. (Модели 'instruct' "особенно ненормальны" в этом контексте, как заметил janus).
Многие из этих лексем надежно нарушают детерминизм в OpenAI GPT-3 playground при температуре 0 (что теоретически не должно происходить).
Генерация подсказок: новый метод интерпретируемости для языковых моделей (который надежно находит подсказки, приводящие к целевому завершению). Это полезно для:
получения знаний
генерирования неблагоприятных входных данных
автоматизации поиска подсказок (например, для тонкой настройки).
В этом посте мы представим прототип нового метода интерпретируемости языковых моделей, не зависящего от модели, который надежно генерирует неблагоприятные подсказки, приводящие к завершению задачи. Мы также продемонстрируем ранее не документированный способ отказа языковых моделей GPT-2 и GPT-3, который приводит к странным завершениям (в некоторых случаях явно противоречащим цели модели), и представим результаты нашего исследования этого явления. Более подробную информацию можно найти в последующем сообщении.
@
1 минута
19 февраля 2023