Найти в Дзене

Meta и провал Maverick: как попытка обойти бенчмарки обернулась антирекламой

Что случилось с Llama 4 Maverick Meta презентовала новую языковую модель искусственного интеллекта — Llama 4 Maverick. По заявлению компании, модель демонстрировала выдающиеся результаты в тестах, обгоняя многих конкурентов. Но вскоре выяснилось: для прохождения бенчмарков использовалась специальная, оптимизированная версия модели, недоступная обычным пользователям. Когда исследователи LMArena провели независимую проверку на стандартной (доступной) версии Maverick, результат оказался провальным. Модель заняла лишь 32-е место, уступив GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro. Это вызвало бурную реакцию сообщества. Манипуляция или недоразумение? Meta пояснила, что в тестах использовалась "диалоговая версия" модели, специально заточенная под сценарии общения. Однако со стороны это выглядело как попытка манипулировать результатами. Ключевая претензия: тестировалась одна версия, а пользователям предлагается другая — более слабая. Ответом стало изменение правил на LMArena: теперь все модел

Что случилось с Llama 4 Maverick

Meta презентовала новую языковую модель искусственного интеллекта — Llama 4 Maverick. По заявлению компании, модель демонстрировала выдающиеся результаты в тестах, обгоняя многих конкурентов. Но вскоре выяснилось: для прохождения бенчмарков использовалась специальная, оптимизированная версия модели, недоступная обычным пользователям.

Когда исследователи LMArena провели независимую проверку на стандартной (доступной) версии Maverick, результат оказался провальным. Модель заняла лишь 32-е место, уступив GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro. Это вызвало бурную реакцию сообщества.

Манипуляция или недоразумение?

Meta пояснила, что в тестах использовалась "диалоговая версия" модели, специально заточенная под сценарии общения. Однако со стороны это выглядело как попытка манипулировать результатами. Ключевая претензия: тестировалась одна версия, а пользователям предлагается другая — более слабая.

Ответом стало изменение правил на LMArena: теперь все модели должны проходить тесты в том виде, в каком они доступны публично.

Почему это важно

Бенчмарки — не просто рейтинги. Они влияют на восприятие моделей, инвестиции, доверие со стороны разработчиков. Если участники начинают "подгонять" свои модели под тесты, теряется сама суть сравнительного анализа.

Для реального применения важна честная оценка: насколько модель справляется с задачами в своей стандартной версии, без "спецнастроек" и скрытых параметров.

Что дальше

Meta заявила, что продолжит экспериментировать с различными архитектурами и вариантами Llama 4. Однако инцидент с Maverick показал: прозрачность и открытость становятся ключевыми требованиями рынка ИИ. Без этого ни одна модель — даже самая "умная" — не сможет завоевать доверие пользователей.