119 подписчиков
Забудьте про бенчмарки: где на самом деле искать честный #рейтинг нейросетей?
Вы когда-нибудь задумывались, почему в официальных тестах каждая вторая #нейросеть — «убийца GPT-4», а на деле она не может связать двух слов в коде? Ответ прост: современные #бенчмарки превратились в маркетинговую шелуху, под которую разработчики просто подгоняют ответы своих моделей.
Если вы устали от дутых цифр и хотите знать, какие модели реально «тащат» задачи в продакшене, пора сменить фокус. В этой статье я расскажу, почему даже популярная LM-Arena — это не истина в последней инстанции, и где найти статистику, за которую люди голосуют собственным кошельком.
Подробнее: allslava.ru/...iei
Около минуты
26 декабря 2025