Meta в начале апреля 2025-го представила четвёртое поколение своих открытых моделей — Llama 4. Три модели, новая архитектура, мультимодальность и контекстное окно в 10 миллионов токенов. Разбираю без маркетингового тумана: что реально изменилось и где это пригодится тебе.
📰 Что произошло
5 апреля Meta выложила в открытый доступ сразу две модели семейства Llama 4:
- Llama 4 Scout — 17 миллиардов активных параметров, 109 миллиардов общих, контекст 10 миллионов токенов
- Llama 4 Maverick — те же 17 миллиардов активных, но 400 миллиардов общих, контекст 1 миллион токенов
Третья модель, Llama 4 Behemoth (примерно 2 триллиона параметров общих), на момент анонса ещё дообучалась. Все модели доступны на Hugging Face и через облачных провайдеров — AWS, Google Cloud, Azure.
Источник: официальный блог Meta AI — ai.meta.com/blog, 5 апреля 2025
🔍 А по-простому это значит вот что
Если от цифр выше закружилась голова — это нормально. Переведу.
Mixture-of-Experts (MoE, «смесь экспертов») — это когда модель не гоняет каждый запрос через все свои 400 миллиардов параметров, а выбирает нужную «группу специалистов» под конкретную задачу. Представь большую поликлинику: ты не проходишь всех врачей разом, а идёшь к нужному. Результат — модель работает быстрее и дешевле, а знает при этом столько же.
10 миллионов токенов контекста (токен — это примерно ¾ слова) — это около 7,5 миллионов слов. Для сравнения: вся «Война и мир» — примерно 580 тысяч слов. То есть в окно Scout влезает 13 «Войн и миров» разом. Llama 3 максимально поддерживала 128 тысяч токенов — рост почти в 80 раз.
Нативная мультимодальность — модель «из коробки» понимает и текст, и картинки. Llama 3 работала только с текстом, а картинки прикручивались отдельными костылями.
🔄 До и после: Llama 3 vs Llama 4
Llama 3Llama 4 АрхитектураDense (все параметры работают всегда)MoE (включаются только нужные «эксперты») Контекстдо 128K токенов (~96 тыс. слов)до 10M токенов (~7,5 млн слов) Мультимодальностьтолько тексттекст + изображения Языки812 Эффективностьвысокая нагрузка на железоменьше VRAM при инференсе за счёт MoE Если раньше ты мог скормить Llama длинный договор и она «забывала» начало к середине — теперь в окно Scout влезает архив документов за несколько лет.
🧰 Что это даёт тебе
Конкретные сценарии, где Llama 4 может пригодиться уже сейчас:
- Работаешь с документами — загружаешь десятки PDF разом и задаёшь вопросы по всем сразу. Контекста хватит
- Ведёшь блог или канал — модель анализирует картинки: кидаешь скриншот конкурента и просишь разобрать структуру
- Разрабатываешь продукт — Llama 4 бесплатна для компаний с аудиторией менее 700 млн пользователей в месяц. Для 99,99% бизнесов это «бесплатно, без оговорок»
- Пишешь код — Maverick на бенчмарках конкурирует с GPT-4o и Gemini 2.0 Flash, при этом можно запустить локально без подписок
- Не хочешь зависеть от облака — модели открыты и запускаются на своём сервере. Данные остаются у тебя
⚠️ Чего ждать не стоит
Здесь я должен быть честен — не всё так радужно:
- Бенчмарки вызвали вопросы. Сообщество заметило, что реальная производительность Llama 4 не всегда совпадает с цифрами из пресс-релиза Meta. Особенно в задачах на код и сложные рассуждения — результаты скромнее, чем на бумаге
- Behemoth — флагман — так и не вышел. Анонсировали, но до сих пор дообучают. А именно на него делали главную ставку
- «Открытость» с оговорками. Лицензия Llama — не классический open source. Есть ограничения для крупных компаний, а сама лицензия не OSI-совместима
- Запуск локально требует железа. Scout ещё реально развернуть на мощной рабочей станции, но Maverick с 400 миллиардами параметров — это уже серверный уровень
🤔 Мой прогноз
Meta продолжает давить на открытость — и это двигает весь рынок вперёд. Когда модель уровня GPT-4o можно скачать и запустить у себя, закрытым сервисам приходится конкурировать не только качеством, но и ценой.
Но я бы не спешил называть Llama 4 «убийцей ChatGPT». По моему опыту, маркетинговые бенчмарки и ежедневное использование — это два разных мира. Подожду Behemoth и реальных сравнений от сообщества, прежде чем менять свой рабочий стек.
Главное: конкуренция усилилась — и от этого выигрывает пользователь. Больше моделей → ниже цены → лучше качество у всех.
📱 Больше промтов, экспериментов и смешных фейлов нейросетей —
в моём Телеграме: @skazhi_ai
Подписывайся на «Скажи AI» здесь, если хочешь видеть такое регулярно →