Найти в Дзене

Meta облажалась с Maverick: что не так с новой AI-моделью Llama 4

Громкое заявление — и тихий провал
Meta с пафосом анонсировала свою языковую модель Llama 4 Maverick. По их словам, она «на равных» с лидерами рынка: GPT-4o, Claude 3.5, Gemini 1.5. Но быстро выяснилось: в тестах использовалась не та версия, которую получат пользователи.
Для прохождения популярных бенчмарков, таких как LMArena, компания использовала экспериментальную, специально «подогнанную» версию модели — не «ванильную», не ту, что доступна разработчикам. Когда протестировали именно обычную, публичную версию — она показала результат куда скромнее: 32-е место. Для сравнения, OpenAI, Anthropic и Google находятся в топе.
Попытка красиво схитрить
Meta утверждает, что использовала «оптимизированную для диалогов» сборку — якобы для честной оценки в сценариях общения. Но сообщество увидело в этом манипуляцию. Бенчмарк должен отражать реальную производительность модели, а не «идеальные условия».
Ответ был жёстким. Платформа LMArena изменила правила: теперь на тесты принимаются только публичные, доступные версии. Хочешь в рейтинг — выкладывай ту же модель, которую дают пользователям.
Почему это важно
Бенчмарки — не игрушка. Это инструмент, на основе которого бизнес выбирает модели, инвесторы делают ставки, разработчики строят продукты. Если участники начнут «рисовать» результаты, доверие к всей системе сломается.
Meta попала в неприятную ситуацию. И хотя они обещают больше открытости и «экспериментов», репутационный урон уже нанесён. Модель, которая должна была стать конкурентом GPT, в итоге показала себя как маркетинговый продукт — но не технический прорыв.
Итог
Meta хотела сыграть на равных с лидерами. Но пока Maverick — это не «смелый новичок», а скорее «переоценённый тестовый билд». Рынок жёсткий, и если хочешь в топ — играй честно.
1 минута