GPT-5.5 показал лучшие результаты в бенчмарке Programbench
Авторы Programbench протестировали GPT-5.5 и Claude Opus 4.7 на уровнях high/xhigh (максимальная длина рассуждений и время работы). • GPT-5.5 xhigh значительно опередил Claude Opus 4.7 xhigh по всем показателям. • Впервые одна из моделей полностью решила задачу (из 200), оба запуска GPT-5.5 справились с ней на Python и C. • По задачам, где проходит 95% тестов, GPT-5...
