Когда мы обсуждаем качество больших языковых моделей, чаще всего разговор идёт о новых архитектурах, триллионах параметров и стоимости обучения. Но свежий эксперимент в рамках Tau² Benchmark показывает: иногда не железо и не алгоритм решают исход, а всего лишь грамотно переписанный промпт. Исследователи протестировали GPT-5-mini — компактную версию GPT-5, которая работает вдвое быстрее и стоит в пять раз дешевле флагмана. В бенчмарке telecom_small модель показала 55 % успеха (pass¹) и 40 % при повторных попытках (pass²). Затем документацию для промптов переписали при помощи Claude: из длинных описаний сделали структурированные деревья решений (decision trees), ввели чёткие бинарные условия («если X → то Y»), добавили явные шаги в стиле чек-листа и убрали двусмысленности. Результат: То есть мы получили модель, которая в два раза дешевле и в разы быстрее, но при этом почти догоняет «старших братьев» — достигая 85–95 % качества GPT-5, у которого результат ~97 %. Маленькие модели страдают
Tau² Benchmark и сила промпт-инжиниринга: как GPT-5-mini догнал «старших братьев»
18 сентября 202518 сен 2025
1
2 мин