Добавить в корзинуПозвонить
Найти в Дзене
OVERCLOCKERS.RU

Компанию Марка Цукерберга уличили в подтасовке результатов тестов на LMArena новых моделей Llama 4

Компания Meta* (признана экстремистской, ее деятельность запрещена на территории России) подверглась серьезной критике после выпуска новых моделей Llama 4 на прошлых выходных. Обнаружены несоответствия в результатах сравнительного анализа с другими моделями. Есть подозрение, что компания Марка Цукерберга подтасовала результаты теста, чтобы ее последние модели ИИ выглядели лучше, чем они есть на самом деле, по сравнению с конкурентами из Google и OpenAI. Марк ЦукербергКак сообщалось, на выходных Meta* представила две новые версии Llama 4: Scout, более компактную модель, и Maverick, версию среднего размера. В ходе релиза компания заявила, что Maverick превзошла конкурирующие модели GPT-4o от OpenAI и Gemini 2.0 Flash от Google в нескольких тестах. Особенно впечатляющим стал показатель ELO Maverick в 1417 баллов на платформе бенчмаркинга LMArena, который поставил модель на второе место после Gemini 2.5 Pro. Однако исследователи ИИ обнаружили важное отличие: версия Maverick, протестированн

Компания Meta* (признана экстремистской, ее деятельность запрещена на территории России) подверглась серьезной критике после выпуска новых моделей Llama 4 на прошлых выходных. Обнаружены несоответствия в результатах сравнительного анализа с другими моделями. Есть подозрение, что компания Марка Цукерберга подтасовала результаты теста, чтобы ее последние модели ИИ выглядели лучше, чем они есть на самом деле, по сравнению с конкурентами из Google и OpenAI.

Марк ЦукербергКак сообщалось, на выходных Meta* представила две новые версии Llama 4: Scout, более компактную модель, и Maverick, версию среднего размера. В ходе релиза компания заявила, что Maverick превзошла конкурирующие модели GPT-4o от OpenAI и Gemini 2.0 Flash от Google в нескольких тестах. Особенно впечатляющим стал показатель ELO Maverick в 1417 баллов на платформе бенчмаркинга LMArena, который поставил модель на второе место после Gemini 2.5 Pro.

Однако исследователи ИИ обнаружили важное отличие: версия Maverick, протестированная на LMArena, не идентична общедоступной модели. Вместо этого Meta* представила «экспериментальную версию бота», специально оптимизированную для общения в чате. То есть в тестах принимала участие специально оптимизированная версия Maverick, недоступная разработчикам.

В LMArena этот подход в конечном итоге подвергся критике: «Meta* должна была яснее заявить, что «Llama-4-Maverick-03-26-Experimental» — это модифицированная модель, оптимизированная для учета человеческих предпочтений».

Помимо споров вокруг экспериментальной версии, на интернет-форумах появились и более серьезные обвинения. Бывший сотрудник Meta* заявил, что компания «смешала тестовые наборы различных тестов в процессе обучения», чтобы искусственно улучшить результаты тестов. Эту практику можно сравнить с изучением экзаменационных вопросов перед экзаменом с целью запоминания ответов заранее.

Ахмад Аль-Дахле, вице-президент Meta* по генеративному ИИ, решительно опроверг эти утверждения: «Мы также слышали заявления о том, что мы обучались на тестовых наборах — это просто неправда, и мы никогда бы так не поступили». Он объяснил нестабильное качество модели проблемами ее реализации, которые еще предстоит стабилизировать.

Интересно, что это не первый раз, когда Meta* подвергается критике за манипуляции с бенчмарками. В феврале 2025 года Сьюзан Чжан, бывший исследователь искусственного интеллекта в компании Цукерберга, поделилась исследованием, показывающим, что более 50% тестовых данных из ключевых бенчмарков уже были включены в обучающие данные Meta* для Llama 1. Эти прошлые проблемы усиливают нынешние опасения относительно методов бенчмаркинга компании.

О том, что в Meta* не все гладко с разработкой ИИ, свидетельствует и отставка Джоэль Пино, бывшего вице-президента компании по исследованиям ИИ. Недавно она объявила, что покинет свою должность в конце мая.

* Meta признана экстремистской, ее деятельность запрещена на территории России

📃 Читайте далее на сайте