Бенчмарки нас обманывают Chatbot Arena — это система, которая позволяет тестировать и сравнивать различные языковые модели нейросетей. Реальные пользователи задают вопросы, и две модели одновременно отвечают на них. Затем пользователь выбирает понравившийся ответ, что дает соответствующей нейросети очки в рейтинге. Скандал начался с нейросети от Цукерберга Llama 4 Maverick. В Chatbot Arena выпустили версию специально заточенную под этот «бенчмарк». И больше ни подо что. Естественно, она показала отличные результаты, а когда выяснилось, что реальная версия такие показатели не выдает, то компания поспешила извиниться. Позже выяснилось, что организаторы бенчмарка Chatbot Arena предоставляла ведущим игрокам в области искусственного интеллекта (OpenAI, Google, Amazon и другие) возможность проводить закрытые тесты различных вариантов собственных моделей. После этого неудачные варианты исключались и не попадали в публичные рейтинги. Это позволило лидерам рынка создавать модели, оптималь