GPT-5.5 показал лучшие результаты в бенчмарке Programbench

СегодняСегодня

~1 мин

Авторы Programbench протестировали GPT-5.5 и Claude Opus 4.7 на уровнях high/xhigh (максимальная длина рассуждений и время работы). • GPT-5.5 xhigh значительно опередил Claude Opus 4.7 xhigh по всем показателям. • Впервые одна из моделей полностью решила задачу (из 200), оба запуска GPT-5.5 справились с ней на Python и C. • По задачам, где проходит 95% тестов, GPT-5.5 xhigh написал с нуля 13,5% программ, GPT-5.5 high — 5%, Opus 4.7 xhigh — 4,5%. «GPT-5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» На графике видно, что GPT-5.5 xhigh закрывает больше функциональности в задачах по сравнению с другими моделями. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527

Авторы Programbench протестировали GPT-5.5 и Claude Opus 4.7 на уровнях high/xhigh (максимальная длина рассуждений и время работы).

• GPT-5.5 xhigh значительно опередил Claude Opus 4.7 xhigh по всем показателям.

• Впервые одна из моделей полностью решила задачу (из 200), оба запуска GPT-5.5 справились с ней на Python и C.

• По задачам, где проходит 95% тестов, GPT-5.5 xhigh написал с нуля 13,5% программ, GPT-5.5 high — 5%, Opus 4.7 xhigh — 4,5%.

«GPT-5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам»

На графике видно, что GPT-5.5 xhigh закрывает больше функциональности в задачах по сравнению с другими моделями.

https://dzen.ru/id/5c0e38ff46ef5c00aaa80527