В ответ на пост

8 апреля 20258 апр 2025

~1 мин

В ответ на пост Llama-4 завысили в бенчмарках? Пользователи сообщают, что рейтинги нейросети выглядят значительно завышенными. Оказалось, что на тестах Meta* показала на LM Arena версию Maverick, которая была «оптимизирована для диалогов». Эта модель сильно отличается от той, что доступна сейчас. По локальным тестам Maverick и Scout проявили себя слабее GPT-4o, DeepSeek V3 и Sonnet 3.7. *компания признана экстремистской и запрещена в России

В ответ на пост

Llama-4 завысили в бенчмарках?

Пользователи сообщают, что рейтинги нейросети выглядят значительно завышенными. Оказалось, что на тестах Meta* показала на LM Arena версию Maverick, которая была «оптимизирована для диалогов».

Эта модель сильно отличается от той, что доступна сейчас. По локальным тестам Maverick и Scout проявили себя слабее GPT-4o, DeepSeek V3 и Sonnet 3.7.

*компания признана экстремистской и запрещена в России