В ответ на пост Llama-4 завысили в бенчмарках? Пользователи сообщают, что рейтинги нейросети выглядят значительно завышенными. Оказалось, что на тестах Meta* показала на LM Arena версию Maverick, которая была «оптимизирована для диалогов». Эта модель сильно отличается от той, что доступна сейчас. По локальным тестам Maverick и Scout проявили себя слабее GPT-4o, DeepSeek V3 и Sonnet 3.7. *компания признана экстремистской и запрещена в России