225 подписчиков

LFM2-24B-A2B: тяжеловес в лёгком весе — как Liquid AI впихнули 24 миллиарда параметров в обычный ноутбук

2 мая2 мая

7 мин

Liquid AI выкатили ранний чекпойнт LFM2-24B-A2B — самой крупной модели в семействе LFM2. Это разреженный Mixture of Experts (MoE) с 24 миллиардами общих параметров, но активны на токен только ~2,3 млрд. Главная фишка — модель целенаправленно сделана так, чтобы влезать в 32 ГБ оперативной памяти и крутиться на потребительских ноутбуках с интегрированной графикой и NPU. Веса открыты, лежат на Hugging Face, поддержка в llama.cpp, vLLM и SGLang — с первого дня. И это, на мой взгляд, гораздо интереснее, чем очередной анонс «мы обогнали GPT-X». Потому что Liquid AI не гонятся за топом лидербордов — они методично доказывают, что их гибридная архитектура масштабируется по предсказуемой кривой. И теперь у нас есть тому подтверждение в диапазоне почти двух порядков: от LFM2-350M до LFM2-24B-A2B. Обычный трансформер — это стек блоков самовнимания (self-attention). Дорого по памяти, потому что KV-кэш растёт линейно с длиной контекста, а внимание квадратично. LFM2 устроены иначе: основу составляют

Оглавление

Что внутри: гибрид свёрток и внимания, политый соусом MoE
Почему 32 ГБ — это магическая цифра
Что с качеством

И это, на мой взгляд, гораздо интереснее, чем очередной анонс «мы обогнали GPT-X». Потому что Liquid AI не гонятся за топом лидербордов — они методично доказывают, что их гибридная архитектура масштабируется по предсказуемой кривой. И теперь у нас есть тому подтверждение в диапазоне почти двух порядков: от LFM2-350M до LFM2-24B-A2B.

Что внутри: гибрид свёрток и внимания, политый соусом MoE

Обычный трансформер — это стек блоков самовнимания (self-attention). Дорого по памяти, потому что KV-кэш растёт линейно с длиной контекста, а внимание квадратично. LFM2 устроены иначе: основу составляют короткие гейтированные свёртки (gated short convolution блоки), а полноценная группировка запросов в механизме внимания (Grouped Query Attention - GQA) добавляется только местами. В 24B-версии — 10 attention-слоёв из 40, то есть отношение примерно 1:3 в пользу свёрток. Архитектуру они подбирали через поиск с включением реального оборудования в контур (HIL), то есть оптимизировали не абстрактную «качество vs параметры», а конкретно скорость предобработки (prefill) и декодирования (decode) и аппетит к памяти на реальном железе.

Дальше поверх этого скелета натянули MoE. Вот где интересные числа:

🧱 40 слоёв (против 24 у LFM2-8B-A1B)

🎛️ 64 эксперта в каждом MoE-блоке (против 32 у 8B)

🚦 top-4 роутинг — на токен выбираются 4 эксперта из 64

📏 скрытую размеренность (hidden dimension) оставили прежним (2048), а каждого эксперта сделали чуть менее тяжелым — промежуточная размерность (intermediate size) 1536 вместо 1792

🪨 первые два слоя оставили плотным (dense) — это распространённый трюк для стабильности обучения MoE

🧮 итог: общие параметры выросли в 3 раза (8,3B → 24B), а активные — всего в 1,5 раза (1,5B → 2,3B)

Вот этот разрыв между ростом общего и активного — суть всей затеи. Память тратится на хранение весов всех экспертов (плюс KV-кэш), а вычисления — только на тот узкий путь, который выбрал роутер. В Q4_K_M квантизации модель занимает примерно те самые 32 ГБ, и при этом в каждом прямом проходе (forward pass) работает компьютер размером с 2-миллиардную плотную модельку. Получается нечестно дёшево по FLOPS — и в этом весь смысл.

Почему 32 ГБ — это магическая цифра

Это очень осознанный выбор. Современные «приличные» ноутбуки и мини-ПК сейчас идут с 32 ГБ объединённой памяти (unified memory) — Apple M-серия, AMD Ryzen AI Max+, Intel Core Ultra с Arc graphics. На таких машинах GPU и CPU делят одну общую RAM, а значит, никаких «модель не влезла в VRAM» — главное, чтобы влезла вообще.

То есть Liquid AI явно проектировали LFM2-24B-A2B под форм-фактор «обычная рабочая машина разработчика», а не под H100. Тесты они и правда гоняли на AMD Ryzen AI Max+ 395 через llama.cpp — это тот самый APU с массивной iGPU Radeon 8060S, который недавно стал хитом среди энтузиастов локального LLM-инференса. Параллельно работают над NPU-поддержкой для мобильных устройств и edge-железа.

Сравнения с конкурентами они тоже подобрали честные — модели близкого размера:

⚔️ Qwen3-30B-A3B-Instruct-2507 (30,5B общих / 3,3B активных)

⚔️ gpt-oss-20b (21B / 3,6B)

На H100 SXM5 с vLLM при 1024 параллельных запросах LFM2-24B-A2B выдала около 26,8K токенов/секунду — обогнав обоих оппонентов. На AMD Ryzen Max+ в генерации на потребительском железе (decode-throughput) преимущество тоже есть. Если раньше у меня был лёгкий скепсис по поводу того, что свёрточная основа даст реально работающий продакшн-инференс, теперь вопросов меньше.

Что с качеством

Здесь надо сразу честно сказать: это instruct-модель — она даёт ответ сразу, без показа хода рассуждений. Liquid AI прямо говорят: выбрали быстрый пост-тренинг, чтобы быстрее зарелизить модель, тем более что instruct-версии сейчас популярнее. То есть никаких «think»-токенов и никакой цепочки рассуждений (как у DeepSeek-R1) из коробки нет. Хотите рассуждения — пилите CoT-промпты сами.

По бенчмаркам (GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500) у всего семейства LFM2 — log-linear-рост от 350M до 24B. То есть качество растёт предсказуемо с размером, без типичного «упёрлись в потолок на маленьких моделях». Это, пожалуй, главное научное сообщение релиза: их гибридная архитектура — не специфическая микро-оптимизация под маленький размер, а полноценная альтернатива чистому трансформеру и в больших масштабах.

И ещё важная деталь: модель обучена пока на 17 триллионах токенов, и pre-training продолжается. То, что мы видим сейчас — это именно ранний чекпойнт. Финальная версия будет называться LFM2.5-24B-A2B и получит дополнительный post-training с RL.

Как запустить у себя

Тут всё максимально приземлённо:

⚙️ llama.cpp с GGUF-квантованиями: Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16 — выбираете под свой объём RAM

⚙️ vLLM или SGLang — если хочется батч-сёрвинг на сервере

⚙️ Hugging Face: LiquidAI/LFM2-24B-A2B — забираете веса и крутите

⚙️ Liquid Playground — если хочется потыкать без локального запуска

Для типичного 32-гигового MacBook Pro или Ryzen-ноута Q4_K_M будет оптимальным выбором — модель влезет в память с запасом на контекст, и активные ~2,3B параметров на токен дадут вполне приемлемые токены-в-секунду даже без дискретной видеокарты.

Личное мнение: куда это всё идёт

Я уже довольно долго играюсь с локальными моделями — и Qwen2.5-Coder, и gpt-oss, и DeepSeek-варианты — и меня каждый раз цепляет одна вещь: фокус смещается с «у кого больше параметров» на «у кого выше эффективность активного пути». MoE в этом смысле — не просто архитектурная мода, а реальный инструмент: вы платите памятью за хранение специализаций, но получаете вычислительную стоимость как у маленькой модели.

LFM2-24B-A2B — это, по сути, заявка на то, что edge-инференс серьёзных моделей перестаёт быть «хочется, но не получается». 24B общих параметров на ноутбуке без серверной видеокарты — это именно то, что нужно, чтобы локальные ассистенты, code-completion и агентские пайплайны можно было гонять без ухода в облако. Особенно важно для кодинга, корпоративных контуров и просто параноиков по части приватности — а я и сам в эту категорию попадаю.

Что меня лично немного смущает: отсутствие reasoning-варианта. В 2026 году модель без CoT/thinking-режима ощущается как фича прошлого поколения — особенно для задач кодинга и сложных рассуждений, где DeepSeek и Qwen3-Thinking уже задали планку. Но если LFM2.5-24B-A2B приедет с нормальным post-training c RL (а команда обещает), это закроет дыру.

Второе наблюдение: семейство LFM2 пробило 10 миллионов скачиваний на Hugging Face. Это не «топ-1», но это устойчивая база пользователей, которая голосует ногами за гибридную архитектуру и небольшие, но шустрые модели. С учётом партнёрств с производителями железа (AMD, и судя по всему, идёт работа с другими вендорами по NPU) — Liquid AI явно строят не «модель ради хайпа», а именно платформу.

Заключение

LFM2-24B-A2B — это не «убийца GPT-5» (и слава богу, никто и не обещал). Это аккуратное, инженерно вылизанное доказательство того, что гибридная архитектура «свёртки + внимание» хорошо тянется наверх, а формат MoE позволяет упаковать большую модель в форм-фактор обычного ноутбука. Прогноз простой: ждём LFM2.5 с reasoning, ждём NPU-сборки под мобильные устройства, и — что для меня лично важнее всего — продолжаем наблюдать, как edge-инференс из лабораторного развлечения превращается в нормальный продакшн-инструмент.

Если есть 32 ГБ RAM и желание потрогать руками — берите GGUF, поднимайте llama.cpp, запускайте. Это, наверное, самый интересный 24B-релиз для локального инференса за последние месяцы.

Маленький фактчек к исходному брифу: активных параметров там не ровно 2 млрд, а ~2,3 млрд (LFM2-8B-A1B имела 1,5B активных, эта — 2,3B). И в первоисточнике явно упоминается оптимизация под AMD-железо и работа с партнёрами по NPU в целом — упоминания Intel конкретно в этом блог-посте нет, хотя на уровне общих интеграций (Intel Core Ultra с unified memory как раз идеально подходит) это вполне логично.

Источники

🔗 Liquid AI — LFM2-24B-A2B: Scaling Up the LFM2 Architecture: https://www.liquid.ai/blog/lfm2-24b-a2b

🔗 Веса на Hugging Face: https://huggingface.co/LiquidAI/LFM2-24B-A2B

🔗 Документация Liquid AI: https://docs.liquid.ai

🔗 Liquid Playground: https://playground.liquid.ai

🔗 Telegra.ph (расширенная версия новости): https://telegra.ph/LFM2-24B-A2B-Tyazheloves-v-lyogkom-vese-Kak-novaya-model-umeshchaet-24-milliarda-parametrov-v-vash-noutbuk-05-02