Добавить в корзинуПозвонить
Найти в Дзене
ProAi

Liquid AI опубликовала чертежи маленьких моделей, которые работают везде — даже без облака

Представьте: стартап Liquid AI, основанный учёными из MIT в 2023 году, в июле 2025 года выпустил серию Liquid Foundation Models 2 (LFM2). И знаете, что самое интересное? Они заявили просто и честно: вот вам самые быстрые нейросети для работы прямо на телефоне и ноутбуке. Никакого облака. Никакого OpenAI GPT. Просто эффективная архитектура «liquid» с обучением и выводом, которые позволяют маленьким моделям конкурировать с облачными гигантами вроде Gemini. Первый релиз привёз чекпойнты на 350 млн, 700 млн и 1,2 млрд параметров. Гибридная архитектура с упором на гейтированные короткие свёртки. И результаты? Данные показывают, что LFM2 обогнала конкурентов вроде Qwen3, Llama 3.2 и Gemma 3 по качеству и пропускной способности на процессорах. Послание для компаний было ясное: реальный ИИ в реальном времени, с приватностью — всё это теперь возможно без ущерба скорости. С тех пор Liquid расширила линейку — добавила специализированные версии для разных задач, компактную модель для видео и стек
Оглавление
   Liquid AI представила компактные модели искусственного интеллекта, работающие автономно и эффективно в различных условиях.
Liquid AI представила компактные модели искусственного интеллекта, работающие автономно и эффективно в различных условиях.

Представьте: стартап Liquid AI, основанный учёными из MIT в 2023 году, в июле 2025 года выпустил серию Liquid Foundation Models 2 (LFM2). И знаете, что самое интересное? Они заявили просто и честно: вот вам самые быстрые нейросети для работы прямо на телефоне и ноутбуке. Никакого облака. Никакого OpenAI GPT. Просто эффективная архитектура «liquid» с обучением и выводом, которые позволяют маленьким моделям конкурировать с облачными гигантами вроде Gemini.

Первый релиз привёз чекпойнты на 350 млн, 700 млн и 1,2 млрд параметров. Гибридная архитектура с упором на гейтированные короткие свёртки. И результаты? Данные показывают, что LFM2 обогнала конкурентов вроде Qwen3, Llama 3.2 и Gemma 3 по качеству и пропускной способности на процессорах. Послание для компаний было ясное: реальный ИИ в реальном времени, с приватностью — всё это теперь возможно без ущерба скорости.

С тех пор Liquid расширила линейку — добавила специализированные версии для разных задач, компактную модель для видео и стек LEAP для развёртывания на граничных устройствах. Позиционируют модели как контрольный центр для систем агентов, работающих локально.

Но вот что шокирует: компания опубликовала подробный 51-страничный технический отчёт на arXiv. Полностью. Процесс поиска архитектуры, составление обучающих данных, методы дистилляции, стратегия обучения, постобучение — всё открыто.

И главное — это не просто веса и API. Это повторяемый рецепт. Поиск архитектуры с учётом реального железа. Обучающая стратегия, компенсирующая нехватку параметров. Постобучение, специально заточенное под инструкции и использование инструментов.

По сути, Liquid опубликовала детальный план, который другие организации могут взять и создавать свои компактные, эффективные модели. Адаптировать под своё железо. Под свои ограничения. Вот это да.

Модели для реальности, а не для лабораторий

Технический отчёт начинается с простой истины, которую знают все в компаниях: реальные системы упираются в потолок намного раньше, чем это показывают тесты. Задержка. Память. Перегрев процессора. Всё это определяет, что вообще может работать в production, особенно на смартфонах, планшетах и простых серверах.

Жидкий AI провели поиск архитектуры прямо на целевом оборудовании — Snapdragon, Ryzen. Результат? По всем размерам одна и та же картина: минимальная гибридная архитектура с гейтированными короткими свёртками и немного слоёв grouped-query attention. Она выигрывала, потому что давала лучший баланс качество-задержка-память на реальных устройствах.

Для команд в компаниях это важно по трём причинам:

  • Предсказуемость. Архитектура простая, экономна по параметрам, стабильна от 350 млн до 2,6 млрд параметров.
  • Портативность. Плотные и MoE версии имеют одну и ту же основу, просто развернуть на разном оборудовании.
  • Работа на устройстве. Скорость обработки на CPU примерно в два раза выше, чем у конкурентов. Не нужно отправлять всё в облако.

Вместо академической новизны — системный подход к тому, чтобы модели компании действительно могли запустить. Это редко встречается, когда большинство моделей молча предполагают, что у вас есть кластер из H100 для инференса.

Обучение, заточенное под нужды компаний

LFM2 использует подход, который компенсирует меньший размер не чистой мощью, а структурой. Ключевые моменты:

  • 10-12 триллионов токенов предобучения плюс дополнительная фаза на 32K контексте. Расширяет окно контекста без взрывного увеличения вычислений.
  • Отделённая дистилляция Top-K. Решает проблему нестабильности обычного KL-дивергена, когда учитель даёт только частичные логиты.
  • Трёхэтапное постобучение — SFT, выравнивание по предпочтениям, слияние моделей. Результат — модели, которые надёжно следуют инструкциям и работают с инструментами.

Для разработчиков это означает: LFM2 ведёт себя не как «крошечный LLM», а как практичный агент. Следит за форматами, соблюдает JSON схемы, управляет диалогами. Многие компактные модели падают не из-за логики, а из-за хрупкости. LFM2 специально фокусируется на этих проблемах.

Иными словами: Liquid оптимизировала малые модели именно на надёжность, а не просто на оценки в тестах.

Мультимодальность для реальных устройств

LFM2-VL и LFM2-Audio — это ещё одна смена парадигмы. Мультимодальность, построенная на экономии токенов.

Вместо огромного видеотрансформера в LLM, LFM2-VL подключает SigLIP2 энкодер, который агрессивно сокращает количество видеотокенов через PixelUnshuffle. Высокое разрешение автоматически тригерит динамическую разбивку, бюджет токенов остаётся управляемым даже на мобильном. LFM2-Audio использует двойной путь для аудио — один для эмбеддингов, один для генерации. Реальное время транскрипции на простом процессоре.

Для архитекторов это указывает на практическое будущее, где:

  • понимание документов происходит прямо на устройстве;
  • транскрипция и речевые агенты работают локально, соблюдая приватность;
  • мультимодальные агенты держат строгие сроки без отправки данных в облако.

Суть одна: мультимодальность без GPU фермы.

Поиск для систем агентов, не для старого поиска

LFM2-ColBERT расширяет поиск с поздним взаимодействием в компактный формат. Подходит для компаний, которым нужен многоязычный RAG без навеса специализированных акселераторов для векторных БД.

Это особенно ценно, когда организации начинают управлять флотами агентов. Быстрый локальный поиск — на том же оборудовании, что и модель рассуждений — снижает задержку и даёт плюс к управлению: документы никогда не покидают границы устройства.

Вместе VL, Audio и ColBERT показывают LFM2 как модульную систему, а не один монолит.

Чертёж гибридной архитектуры будущего

Весь отчёт LFM2 неявно рисует картину того, как будет выглядеть корпоративный ИИ завтра: гибридная локально-облачная оркестровка. Маленькие быстрые модели на устройстве берут восприятие, форматирование, вызовы инструментов и судейство. Большие облачные модели — для тяжелых рассуждений когда нужно.

Несколько тенденций сходятся:

  • Контроль расходов. Локальный инференс — нет непредсказуемых счётов облака.
  • Предсказуемая задержка. В системах агентов TTFT и стабильность декодирования критичны, локаль убирает сетевые помехи.
  • Управление и compliance. Локальное выполнение упрощает работу с PII, резидентность данных, аудит.
  • Отказоустойчивость. Системы агентов gracefully падают, если облако недоступно, но остаются рабочими.

Компании, принимающие такие архитектуры, будут рассматривать маленькие локальные модели как «плоскость управления» агентских рабочих потоков, с большими облачными моделями как on-demand ускорители.

LFM2 — один из самых чётких открытых фундаментов для этой плоскости управления на данный момент.

Главный вывод: ИИ на устройстве — это теперь выбор, а не компромисс

Годами компании, которые строили ИИ фичи, считали, что «настоящий ИИ» требует облака. LFM2 это оспаривает. Модели работают конкурентно по рассуждениям, инструкциям, многоязычности, RAG. И одновременно дают серьёзный прирост скорости над другими компактными семействами.

Для CIO и CTO, которые планируют дорожную карту на 2026, послание прямое: компактные открытые локальные модели достаточно сильны, чтобы тащить реальные части production рабочих нагрузок.

LFM2 не заменит передовые облачные модели для высокоуровневых рассуждений. Но даёт кое-что, что компании нужны ещё больше: reproducible, open, operationally feasible основу для систем агентов, которые должны работать везде — от смартфонов до промышленных концепций до air-gapped защищённых центров.

В расширяющемся ландшафте корпоративного ИИ LFM2 — это не просто вех в research. Это признак архитектурной конвергенции. Будущее — не облако или edge. Это оба, работающих вместе. И релизы вроде LFM2 дают строительные блоки для организаций, которые готовы создавать это гибридное будущее намеренно, а не случайно.

Много всего интересного про компактные модели, агентские системы и будущее локального ИИ — всё это не проходите мимо.🔔 Чтобы узнать больше про маленькие нейросети, гибридные архитектуры и новости мира ИИ, подпишитесь на мой канал «ProAI» в Telegram!