23 подписчика

Meta выпустила Llama 4 — что это значит для обычного пользователя

1 мая1 мая

3 мин

Meta в начале апреля 2025-го представила четвёртое поколение своих открытых моделей — Llama 4. Три модели, новая архитектура, мультимодальность и контекстное окно в 10 миллионов токенов. Разбираю без маркетингового тумана: что реально изменилось и где это пригодится тебе.

5 апреля Meta выложила в открытый доступ сразу две модели семейства Llama 4:

Третья модель, Llama 4 Behemoth (примерно 2

5 апреля Meta выложила в открытый доступ сразу две модели семейства Llama 4:

Третья модель, Llama 4 Behemoth (примерно 2

Оглавление

📰 Что произошло
🔍 А по-простому это значит вот что
🔄 До и после: Llama 3 vs Llama 4

📰 Что произошло

5 апреля Meta выложила в открытый доступ сразу две модели семейства Llama 4:

Llama 4 Scout — 17 миллиардов активных параметров, 109 миллиардов общих, контекст 10 миллионов токенов
Llama 4 Maverick — те же 17 миллиардов активных, но 400 миллиардов общих, контекст 1 миллион токенов

Третья модель, Llama 4 Behemoth (примерно 2 триллиона параметров общих), на момент анонса ещё дообучалась. Все модели доступны на Hugging Face и через облачных провайдеров — AWS, Google Cloud, Azure.

Источник: официальный блог Meta AI — ai.meta.com/blog, 5 апреля 2025

🔍 А по-простому это значит вот что

Если от цифр выше закружилась голова — это нормально. Переведу.

Mixture-of-Experts (MoE, «смесь экспертов») — это когда модель не гоняет каждый запрос через все свои 400 миллиардов параметров, а выбирает нужную «группу специалистов» под конкретную задачу. Представь большую поликлинику: ты не проходишь всех врачей разом, а идёшь к нужному. Результат — модель работает быстрее и дешевле, а знает при этом столько же.

10 миллионов токенов контекста (токен — это примерно ¾ слова) — это около 7,5 миллионов слов. Для сравнения: вся «Война и мир» — примерно 580 тысяч слов. То есть в окно Scout влезает 13 «Войн и миров» разом. Llama 3 максимально поддерживала 128 тысяч токенов — рост почти в 80 раз.

Нативная мультимодальность — модель «из коробки» понимает и текст, и картинки. Llama 3 работала только с текстом, а картинки прикручивались отдельными костылями.

🔄 До и после: Llama 3 vs Llama 4

Llama 3Llama 4 АрхитектураDense (все параметры работают всегда)MoE (включаются только нужные «эксперты») Контекстдо 128K токенов (~96 тыс. слов)до 10M токенов (~7,5 млн слов) Мультимодальностьтолько тексттекст + изображения Языки812 Эффективностьвысокая нагрузка на железоменьше VRAM при инференсе за счёт MoE Если раньше ты мог скормить Llama длинный договор и она «забывала» начало к середине — теперь в окно Scout влезает архив документов за несколько лет.

🧰 Что это даёт тебе

Конкретные сценарии, где Llama 4 может пригодиться уже сейчас:

Работаешь с документами — загружаешь десятки PDF разом и задаёшь вопросы по всем сразу. Контекста хватит
Ведёшь блог или канал — модель анализирует картинки: кидаешь скриншот конкурента и просишь разобрать структуру
Разрабатываешь продукт — Llama 4 бесплатна для компаний с аудиторией менее 700 млн пользователей в месяц. Для 99,99% бизнесов это «бесплатно, без оговорок»
Пишешь код — Maverick на бенчмарках конкурирует с GPT-4o и Gemini 2.0 Flash, при этом можно запустить локально без подписок
Не хочешь зависеть от облака — модели открыты и запускаются на своём сервере. Данные остаются у тебя

⚠️ Чего ждать не стоит

Здесь я должен быть честен — не всё так радужно:

Бенчмарки вызвали вопросы. Сообщество заметило, что реальная производительность Llama 4 не всегда совпадает с цифрами из пресс-релиза Meta. Особенно в задачах на код и сложные рассуждения — результаты скромнее, чем на бумаге
Behemoth — флагман — так и не вышел. Анонсировали, но до сих пор дообучают. А именно на него делали главную ставку
«Открытость» с оговорками. Лицензия Llama — не классический open source. Есть ограничения для крупных компаний, а сама лицензия не OSI-совместима
Запуск локально требует железа. Scout ещё реально развернуть на мощной рабочей станции, но Maverick с 400 миллиардами параметров — это уже серверный уровень

🤔 Мой прогноз

Meta продолжает давить на открытость — и это двигает весь рынок вперёд. Когда модель уровня GPT-4o можно скачать и запустить у себя, закрытым сервисам приходится конкурировать не только качеством, но и ценой.

Но я бы не спешил называть Llama 4 «убийцей ChatGPT». По моему опыту, маркетинговые бенчмарки и ежедневное использование — это два разных мира. Подожду Behemoth и реальных сравнений от сообщества, прежде чем менять свой рабочий стек.

Главное: конкуренция усилилась — и от этого выигрывает пользователь. Больше моделей → ниже цены → лучше качество у всех.

📱 Больше промтов, экспериментов и смешных фейлов нейросетей —

в моём Телеграме: @skazhi_ai

Подписывайся на «Скажи AI» здесь, если хочешь видеть такое регулярно →