Инженерия промптов — это эмпирическая дисциплина. Нужны собственные A/B-тесты под каждую задачу, а не универсальные рецепты. Единых «лучших практик» не существует. Эффективность любого промпта зависит от конкретной задачи, выбранной модели и способа оценки результата. Метрика меняет картину. Разные стандарты бенчмаркинга (строгая точность, «человеческий уровень», «правильность большинства») дают существенно разные оценки одной и той же модели, поэтому критерий нужно задавать заранее. «Тон» запроса работает непредсказуемо. Вежливость, ограничения длины и другие формальные приёмы иногда повышают точность, а иногда понижают её, поэтому каждую идею приходится проверять экспериментом. Chain-of-Thought (CoT) полезен не всегда. Для старых и малых моделей CoT слегка повышает среднюю точность, но для современных моделей прирост минимален, тогда как время ответа и число токенов заметно растут. Экстремальные мотивационные формулы («заплачу» / «убью») тоже не панацея. Третий отчёт показывает,