82 подписчика

Крошечная модель AI21 Labs, которая «думает» на твоём ноутбуке

11 октября 202511 окт 2025

4 мин

Представь себе: искусственный интеллект, который рассуждает, генерирует код и работает с огромными объёмами данных, но при этом запускается прямо у тебя на ноутбуке или даже на смартфоне. Звучит как фантастика? А вот и нет. AI21 Labs выпустили Jamba Reasoning 3B — крошечную open-source модель, которая может выполнять расширенное рассуждение (extended reasoning), генерировать код и отвечать на основе проверенных фактов. И всё это работает на обычных устройствах, а не где-то там в облаке. Что меня поразило: эта малышка обрабатывает больше 250 000 токенов. Для сравнения, это как если бы ты мог скормить ей целую книгу и она бы всё это держала в памяти, не напрягаясь. Ори Гошен, сооснователь и сопредиректор AI21, объяснил VentureBeat, в чём фишка. Ну, смотри: сейчас компании строят безумно дорогие дата-центры, набивают их чипами, а математика просто не сходится. Доходы от этих центров не покрывают темпы устаревания железа. Короче, денег уходит больше, чем возвращается. «Мы видим, что индуст

Оглавление

Маленькая, но удаленькая
Проверка на обычном MacBook
Малыши захватывают корпорации

Маленькая, но удаленькая

AI21 Labs выпустили Jamba Reasoning 3B — крошечную open-source модель, которая может выполнять расширенное рассуждение (extended reasoning), генерировать код и отвечать на основе проверенных фактов. И всё это работает на обычных устройствах, а не где-то там в облаке.

Что меня поразило: эта малышка обрабатывает больше 250 000 токенов. Для сравнения, это как если бы ты мог скормить ей целую книгу и она бы всё это держала в памяти, не напрягаясь.

Ори Гошен, сооснователь и сопредиректор AI21, объяснил VentureBeat, в чём фишка. Ну, смотри: сейчас компании строят безумно дорогие дата-центры, набивают их чипами, а математика просто не сходится. Доходы от этих центров не покрывают темпы устаревания железа. Короче, денег уходит больше, чем возвращается.

«Мы видим, что индустрия движется к гибридной модели: часть вычислений будет происходить локально на устройствах, а другая часть — на GPU в облаке», — говорит Гошен. И знаешь, это логично. Зачем гонять простые запросы через дата-центры, если можно обработать их прямо на месте?

Проверка на обычном MacBook

Jamba Reasoning 3B использует гибридную архитектуру: комбинацию Mamba и Transformers. Именно это позволяет ей работать с окном в 250 000 токенов на обычных устройствах. По данным AI21, скорость вывода (inference) у неё в 2-4 раза выше, чем у конкурентов. Гошен отмечает, что архитектура Mamba внесла огромный вклад в эту скорость.

А ещё эта гибридная штука серьёзно снижает требования к памяти. Меньше памяти — меньше вычислительных мощностей нужно. Всё просто.

Испытания показали: на стандартном MacBook Pro модель обрабатывает 35 токенов в секунду. Может, звучит не супер впечатляюще, но учти — это всё происходит локально, без отправки данных на сервер.

По словам Гошена, модель особенно хороша для задач вроде вызова функций (function calling), генерации на основе политик (policy-grounded generation) и маршрутизации инструментов (tool routing). Ну вот представь простой сценарий: ты спрашиваешь о предстоящей встрече и просишь создать для неё повестку дня. Такое можно сделать прямо на устройстве. А вот более сложные задачи с глубоким рассуждением — их можно оставить для кластеров GPU.

Малыши захватывают корпорации

Компании всё больше интересуются небольшими моделями. Кто-то создаёт специализированные версии для своей отрасли, кто-то использует сжатые варианты больших языковых моделей.

Вот несколько примеров, чтобы понять масштаб:

В сентябре Meta выпустила MobileLLM-R1 — семейство моделей для рассуждений размером от 140 млн до 950 млн параметров. Они заточены под математику, программирование и научные рассуждения, а не под чат. И да, работают на устройствах с ограниченными ресурсами.
Gemma от Google была одной из первых маленьких моделей на рынке, предназначенных для ноутбуков и мобильников. С тех пор линейка расширилась.
FICO вообще запилили свои собственные модели: FICO Focused Language и FICO Focused Sequence. Они отвечают только на вопросы, связанные с финансами. Узкоспециализированно, но зато точно.

Гошен подчёркивает главное отличие Jamba Reasoning 3B: она ещё меньше большинства конкурентов, но при этом справляется с задачами рассуждения без потери скорости. Вот это баланс!

Как она выступает в тестах

По результатам бенчмарков, Jamba Reasoning 3B показала сильные результаты в сравнении с другими малышками: Qwen 4B, Llama 3.2B-3B от Meta и Phi-4-Mini от Microsoft.

Она обошла всех на тестах IFBench и Humanity’s Last Exam. Правда, на MMLU-Pro заняла второе место, уступив Qwen 4. Но всё равно, согласись, впечатляет для такой крохи.

Кстати, Гошен упомянул ещё один важный момент: маленькие модели вроде Jamba Reasoning 3B легко управляемы (highly steerable) и обеспечивают лучшую конфиденциальность для компаний. Почему? Потому что данные не уходят на какой-то сторонний сервер — всё обрабатывается локально.

«Я верю в мир, где можно оптимизировать опыт клиента под его нужды, и модели на устройствах — большая часть этого», — говорит Гошен.

Почему это важно сейчас

Ну вот смотри. Сейчас все помешаны на больших моделях типа GPT-4 или Claude. Они мощные, да. Но они жрут ресурсы как не в себя и требуют постоянного подключения к интернету.

А тут появляется другой подход: маленькие, шустрые модели, которые работают прямо у тебя. Это освобождает дата-центры, снижает расходы компаний и даёт больше приватности пользователям. К тому же, скорость отклика выше — не нужно ждать, пока данные слетают на сервер и вернутся обратно.

Мне кажется, гибридный подход, о котором говорит Гошен, — это реально будущее. Простые задачи решаются локально, сложные — в облаке. Каждому своё, и все довольны.

Короче, следим за AI21 Labs и их малышкой Jamba. Это может быть началом большого тренда.

Хочешь быть в курсе всех прорывов в мире искусственного интеллекта и не пропускать такие интересные новости?🔔 Чтобы узнавать больше о маленьких моделях, локальном AI и следить за новостями мира искусственного интеллекта, подписывайся на мой канал «ProAI» в Telegram!