Llama-4 вышла.
Нейросеть строится на архитектуре Mixture-of-Experts (MoE), модель способна обрабатывать рекордные 10 млн токенов контекста! В семействе по традиции три LLM. Теперь кратко о каждой:
🧐 Llama-4 Scout:
— 17 млрд активных параметров, 16 экспертов, всего 109В параметров.
— Работает на одном NVIDIA H100 в формате Int4.
— Контекстное окно в 10 млн токенов, обучена на 256 тыс. токенов.
— Лидирует в задачах анализа длинных текстов, обобщения документов и вопросов по кодовым базам.
— Использует архитектуру iRoPE с чередующимся вниманием без позиционных вложений.
— По производительности лучше Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1.
🖕 Llama-4 Maverick:
— 17 млрд активных, 128 экспертов, всего 400В параметров.
— Обходит GPT-4o и Gemini 2.0 Flash, близка к DeepSeek v3.1 в задачах рассуждениях и программировании.
— ELO 1417 в экспериментальной чат-версии на LMArena.
— Оптимальное соотношение по качеству и вычислительным затратам.
— Создана с применением совместной дистилляции на базе «старшей» модели Behemoth.
🦛 Llama-4 Behemoth (пока лишь предварительная версия):
— 288B активных параметров, 16 экспертов, около 2 трлн параметров в общей сложности.
— Показывает лучшие результаты на STEM-бенчмарках, включая GPQA Diamond и MATH-500.
— Использовалась как базовая модель для обучения Scout и Maverick.
— В разработке применили обновлённые методы обучения с подкреплением и динамическую фильтрацию сложности задач.
Llama-4 предобучена на примерно 30 триллионах токенов – вдвое больше, чем у Llama-3.
Модели «говорят» более чем на 200 естественных языков и умеют решать сложные визуальные задачи, анализируя до 48 изображений одновременно.
Цук снова раздал джазу в гонке ИИ. Ждём релиз Behemoth, топовая модель семейства с её 2 триллионами параметров превосходит по масштабам любой продукт от OpenAI.
Cкачиваем с llama.com или Hugging Face.