Найти в Дзене
119 подписчиков

Забудьте про бенчмарки: где на самом деле искать честный #рейтинг нейросетей?


Вы когда-нибудь задумывались, почему в официальных тестах каждая вторая #нейросеть — «убийца GPT-4», а на деле она не может связать двух слов в коде? Ответ прост: современные #бенчмарки превратились в маркетинговую шелуху, под которую разработчики просто подгоняют ответы своих моделей.

Если вы устали от дутых цифр и хотите знать, какие модели реально «тащат» задачи в продакшене, пора сменить фокус. В этой статье я расскажу, почему даже популярная LM-Arena — это не истина в последней инстанции, и где найти статистику, за которую люди голосуют собственным кошельком.

Подробнее: allslava.ru/...iei
Забудьте про бенчмарки: где на самом деле искать честный #рейтинг нейросетей?
Около минуты