Добавить в корзинуПозвонить
Найти в Дзене
ВГаджеты

⚡ SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов. В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты. Читать → @vgadzhety · Habr #gadgets

⚡ SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов. В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты.

Читать →

@vgadzhety · Habr #gadgets