1 подписчик

Meta облажалась с Maverick: что не так с новой AI-моделью Llama 4

Громкое заявление — и тихий провал

Meta с пафосом анонсировала свою языковую модель Llama 4 Maverick. По их словам, она «на равных» с лидерами рынка: GPT-4o, Claude 3.5, Gemini 1.5. Но быстро выяснилось: в тестах использовалась не та версия, которую получат пользователи.

Для прохождения популярных бенчмарков, таких как LMArena, компания использовала экспериментальную, специально «подогнанную» версию модели — не «ванильную», не ту, что доступна разработчикам. Когда протестировали именно обычную, публичную версию — она показала результат куда скромнее: 32-е место. Для сравнения, OpenAI, Anthropic и Google находятся в топе.

Попытка красиво схитрить

Meta утверждает, что использовала «оптимизированную для диалогов» сборку — якобы для честной оценки в сценариях общения. Но сообщество увидело в этом манипуляцию. Бенчмарк должен отражать реальную производительность модели, а не «идеальные условия».

Ответ был жёстким. Платформа LMArena изменила правила: теперь на тесты принимаются только публичные, доступные версии. Хочешь в рейтинг — выкладывай ту же модель, которую дают пользователям.

Почему это важно

Бенчмарки — не игрушка. Это инструмент, на основе которого бизнес выбирает модели, инвесторы делают ставки, разработчики строят продукты. Если участники начнут «рисовать» результаты, доверие к всей системе сломается.

Meta попала в неприятную ситуацию. И хотя они обещают больше открытости и «экспериментов», репутационный урон уже нанесён. Модель, которая должна была стать конкурентом GPT, в итоге показала себя как маркетинговый продукт — но не технический прорыв.

Итог

Meta хотела сыграть на равных с лидерами. Но пока Maverick — это не «смелый новичок», а скорее «переоценённый тестовый билд». Рынок жёсткий, и если хочешь в топ — играй честно.

1 минута

15 апреля 2025