Llama-4 вышла. Нейросеть строится на архитектуре Mixture-of-Experts (MoE), модель способна обрабатывать рекордные 10 млн токенов контекста! В семействе по традиции три LLM. Теперь кратко о каждой: 🧐 Llama-4 Scout: — 17 млрд активных параметров, 16 экспертов, всего 109В параметров. — Работает на одном NVIDIA H100 в формате Int4. — Контекстное окно в 10 млн токенов, обучена на 256 тыс. токенов. — Лидирует в задачах анализа длинных текстов, обобщения документов и вопросов по кодовым базам. — Использует архитектуру iRoPE с чередующимся вниманием без позиционных вложений. — По производительности лучше Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1. 🖕 Llama-4 Maverick: — 17 млрд активных, 128 экспертов, всего 400В параметров. — Обходит GPT-4o и Gemini 2.0 Flash, близка к DeepSeek v3.1 в задачах рассуждениях и программировании. — ELO 1417 в экспериментальной чат-версии на LMArena. — Оптимальное соотношение по качеству и вычислительным затратам. — Создана с применением совместной дистилляци