Найти в Дзене

Инженерия промптов — это эмпирическая дисциплина

Инженерия промптов — это эмпирическая дисциплина. Нужны собственные A/B-тесты под каждую задачу, а не универсальные рецепты. Единых «лучших практик» не существует. Эффективность любого промпта зависит от конкретной задачи, выбранной модели и способа оценки результата. Метрика меняет картину. Разные стандарты бенчмаркинга (строгая точность, «человеческий уровень», «правильность большинства») дают существенно разные оценки одной и той же модели, поэтому критерий нужно задавать заранее. «Тон» запроса работает непредсказуемо. Вежливость, ограничения длины и другие формальные приёмы иногда повышают точность, а иногда понижают её, поэтому каждую идею приходится проверять экспериментом. Chain-of-Thought (CoT) полезен не всегда. Для старых и малых моделей CoT слегка повышает среднюю точность, но для современных моделей прирост минимален, тогда как время ответа и число токенов заметно растут. Экстремальные мотивационные формулы («заплачу» / «убью») тоже не панацея. Третий отчёт показывает,

Инженерия промптов — это эмпирическая дисциплина.

Нужны собственные A/B-тесты под каждую задачу, а не универсальные рецепты.

Единых «лучших практик» не существует. Эффективность любого промпта зависит от конкретной задачи, выбранной модели и способа оценки результата.

Метрика меняет картину. Разные стандарты бенчмаркинга (строгая точность, «человеческий уровень», «правильность большинства») дают существенно разные оценки одной и той же модели, поэтому критерий нужно задавать заранее.

«Тон» запроса работает непредсказуемо. Вежливость, ограничения длины и другие формальные приёмы иногда повышают точность, а иногда понижают её, поэтому каждую идею приходится проверять экспериментом.

Chain-of-Thought (CoT) полезен не всегда. Для старых и малых моделей CoT слегка повышает среднюю точность, но для современных моделей прирост минимален, тогда как время ответа и число токенов заметно растут.

Экстремальные мотивационные формулы («заплачу» / «убью») тоже не панацея. Третий отчёт показывает, что такие радикальные стимулы не дают стабильного выигрыша и создают этические риски.