Представь себе: искусственный интеллект, который рассуждает, генерирует код и работает с огромными объёмами данных, но при этом запускается прямо у тебя на ноутбуке или даже на смартфоне. Звучит как фантастика? А вот и нет.
Маленькая, но удаленькая
AI21 Labs выпустили Jamba Reasoning 3B — крошечную open-source модель, которая может выполнять расширенное рассуждение (extended reasoning), генерировать код и отвечать на основе проверенных фактов. И всё это работает на обычных устройствах, а не где-то там в облаке.
Что меня поразило: эта малышка обрабатывает больше 250 000 токенов. Для сравнения, это как если бы ты мог скормить ей целую книгу и она бы всё это держала в памяти, не напрягаясь.
Ори Гошен, сооснователь и сопредиректор AI21, объяснил VentureBeat, в чём фишка. Ну, смотри: сейчас компании строят безумно дорогие дата-центры, набивают их чипами, а математика просто не сходится. Доходы от этих центров не покрывают темпы устаревания железа. Короче, денег уходит больше, чем возвращается.
«Мы видим, что индустрия движется к гибридной модели: часть вычислений будет происходить локально на устройствах, а другая часть — на GPU в облаке», — говорит Гошен. И знаешь, это логично. Зачем гонять простые запросы через дата-центры, если можно обработать их прямо на месте?
Проверка на обычном MacBook
Jamba Reasoning 3B использует гибридную архитектуру: комбинацию Mamba и Transformers. Именно это позволяет ей работать с окном в 250 000 токенов на обычных устройствах. По данным AI21, скорость вывода (inference) у неё в 2-4 раза выше, чем у конкурентов. Гошен отмечает, что архитектура Mamba внесла огромный вклад в эту скорость.
А ещё эта гибридная штука серьёзно снижает требования к памяти. Меньше памяти — меньше вычислительных мощностей нужно. Всё просто.
Испытания показали: на стандартном MacBook Pro модель обрабатывает 35 токенов в секунду. Может, звучит не супер впечатляюще, но учти — это всё происходит локально, без отправки данных на сервер.
По словам Гошена, модель особенно хороша для задач вроде вызова функций (function calling), генерации на основе политик (policy-grounded generation) и маршрутизации инструментов (tool routing). Ну вот представь простой сценарий: ты спрашиваешь о предстоящей встрече и просишь создать для неё повестку дня. Такое можно сделать прямо на устройстве. А вот более сложные задачи с глубоким рассуждением — их можно оставить для кластеров GPU.
Малыши захватывают корпорации
Компании всё больше интересуются небольшими моделями. Кто-то создаёт специализированные версии для своей отрасли, кто-то использует сжатые варианты больших языковых моделей.
Вот несколько примеров, чтобы понять масштаб:
- В сентябре Meta выпустила MobileLLM-R1 — семейство моделей для рассуждений размером от 140 млн до 950 млн параметров. Они заточены под математику, программирование и научные рассуждения, а не под чат. И да, работают на устройствах с ограниченными ресурсами.
- Gemma от Google была одной из первых маленьких моделей на рынке, предназначенных для ноутбуков и мобильников. С тех пор линейка расширилась.
- FICO вообще запилили свои собственные модели: FICO Focused Language и FICO Focused Sequence. Они отвечают только на вопросы, связанные с финансами. Узкоспециализированно, но зато точно.
Гошен подчёркивает главное отличие Jamba Reasoning 3B: она ещё меньше большинства конкурентов, но при этом справляется с задачами рассуждения без потери скорости. Вот это баланс!
Как она выступает в тестах
По результатам бенчмарков, Jamba Reasoning 3B показала сильные результаты в сравнении с другими малышками: Qwen 4B, Llama 3.2B-3B от Meta и Phi-4-Mini от Microsoft.
Она обошла всех на тестах IFBench и Humanity’s Last Exam. Правда, на MMLU-Pro заняла второе место, уступив Qwen 4. Но всё равно, согласись, впечатляет для такой крохи.
Кстати, Гошен упомянул ещё один важный момент: маленькие модели вроде Jamba Reasoning 3B легко управляемы (highly steerable) и обеспечивают лучшую конфиденциальность для компаний. Почему? Потому что данные не уходят на какой-то сторонний сервер — всё обрабатывается локально.
«Я верю в мир, где можно оптимизировать опыт клиента под его нужды, и модели на устройствах — большая часть этого», — говорит Гошен.
Почему это важно сейчас
Ну вот смотри. Сейчас все помешаны на больших моделях типа GPT-4 или Claude. Они мощные, да. Но они жрут ресурсы как не в себя и требуют постоянного подключения к интернету.
А тут появляется другой подход: маленькие, шустрые модели, которые работают прямо у тебя. Это освобождает дата-центры, снижает расходы компаний и даёт больше приватности пользователям. К тому же, скорость отклика выше — не нужно ждать, пока данные слетают на сервер и вернутся обратно.
Мне кажется, гибридный подход, о котором говорит Гошен, — это реально будущее. Простые задачи решаются локально, сложные — в облаке. Каждому своё, и все довольны.
Короче, следим за AI21 Labs и их малышкой Jamba. Это может быть началом большого тренда.
Хочешь быть в курсе всех прорывов в мире искусственного интеллекта и не пропускать такие интересные новости?🔔 Чтобы узнавать больше о маленьких моделях, локальном AI и следить за новостями мира искусственного интеллекта, подписывайся на мой канал «ProAI» в Telegram!