19 подписчиков

Топ-7 LLM с открытыми весами в 2026 году

5 июня5 июн

18 мин

AI-модели постоянно получают новые версии и сборки. По мнению нашего системного архитектора Владимира Писанного к топ полезных LLM c открытыми весами в 2026 году можно отнести следующие варианты. LLM (от англ. Large Language Model) — большие языковые модели для работы с естественной речь, например текстовыми или голосовыми командами. Изначально такие модели применяли только для профильных задач. Но постепенно они развили свои навыки и стали фундаментом для многих нейросетей.

По формату распространения LLM бывают трех типов. Доступны только по платной подписке и через токенизацию. Данные обучения и обработки, веса и код — все принадлежит владельцам таких моделей.

Плюсы: Минусы: Представлены множеством конфигураций и поддерживают разные форматы развертывания.

Плюсы: Минусы: Полностью открытые для настройки, кастомизации и развертывания.

Плюсы: отрытый код и данные обучения с возможность их глубокого изучения и изменения.

Минусы: очистка и создание дада-сетов

Плюсы: Минусы: Представлены множеством конфигураций и поддерживают разные форматы развертывания.

Плюсы: Минусы: Полностью открытые для настройки, кастомизации и развертывания.

Плюсы: отрытый код и данные обучения с возможность их глубокого изучения и изменения.

Минусы: очистка и создание дада-сетов

Оглавление

Какие локальные LLM популярны в 2026 году?
Что такое open source и open weight LLM
Полностью закрытые LLM

Какие локальные LLM популярны в 2026 году?

Универсальные задачи: gemma4:31b и qwen3.6:27b.
Кодинг и оптимизация рутинных задач: gpt-oss:20b, magistral:24b (mistral-smal:24b), DeepSeek.
Reasoning: DeepSeek и другие.
Сбалансированная аналитика: glm-4.7-Flash.

Что такое open source и open weight LLM

LLM (от англ. Large Language Model) — большие языковые модели для работы с естественной речь, например текстовыми или голосовыми командами. Изначально такие модели применяли только для профильных задач. Но постепенно они развили свои навыки и стали фундаментом для многих нейросетей.

По формату распространения LLM бывают трех типов.

Полностью закрытые LLM

Доступны только по платной подписке и через токенизацию. Данные обучения и обработки, веса и код — все принадлежит владельцам таких моделей.

Плюсы:

Максимальная точность ответов, производительность и скорость работы.
Готовое решение — не нужно ничего настраивать и разворачивать.

Минусы:

Полная зависимость от провайдера LLM, включая подверженность риску ухода с рынка и другим.
Платная токенизация — регулярная коммуникация и большие запросы могут дорого обходиться.
Риски нарушения конфиденциальности — данные обрабатываются в неконтролируемой внешней среде.

Модели с открытыми весами

Представлены множеством конфигураций и поддерживают разные форматы развертывания.

Плюсы:

бесплатный запуск;
возможность глубоко дообучения;
полный контроль на данными.

Минусы:

обычно менее мощные, чем облачные нейросетевые гиганты;
дата-сеты, особенности обучения и код, как правило, закрыты.

Open-source LLM

Полностью открытые для настройки, кастомизации и развертывания.

Плюсы: отрытый код и данные обучения с возможность их глубокого изучения и изменения.

Минусы: очистка и создание дада-сетов с нуля — очень дорогой и сложный процесс.

Сегодня набирают популярность LLM с открытыми весами. Такие модели представляют золотую середину по доступности и возможностям. И при этом обеспечивают полный контроль над данными, автономию от вендоров, гибкость в развертывании и экономии на токенизации.

Почему open weight LLM стали трендом в 2026 году

Громкие утечки, затронувшие десятки миллионов пользователей по всему миру, и дорогостоящие промпты — лишь верхушка айсберга. Владельцы платных AI могут накладывать ограничения и напоминать о своих правах в любой момент. И вот ряд причин, почему LLM с открытыми весами набирают популярность.

Независимость от вендоров. Такие LLM можно использовать для разных задач и интегрировать со многими сервисами, автономно от разработчиков.
Локальный запуск. LLM с открытыми весами можно развернуть на собственном компьютере или арендованных у хостинг-провайдера серверах.
Приватность. Компания получает полный контроль в обработке данных, существенно сокращая риск утечки из-за внешних факторов.
Кастомизация. Локальную LLM можно развернуть в подходящем объеме и с необходимым количеством параметров. И при этом самостоятельно ее дообучить и настроить.
Снижение затрат. Не нужно оплачивать токены. А профессиональные видеокарты и вычислительные мощности можно арендовать у провайдера. Для LLM можно указать необходимое количество параметров и благодаря этому соблюсти баланс между потребляемыми мощностями и точностью ответов.

Связанные с LLM термины

Далее мы рассмотрим популярные языковые модели с открытым весами. Но сначала поясним некоторые термины.

Параметры — переменные и веса, при помощи которых AI-модель формирует ответы на запросы. Чем больше это значение, тем точнее LLM обрабатывает команды. Обозначаются буквой «b» и выражается в миллиардах. Например: 8b, 26b, 31b.

Контекст — максимальный объем информации, который модель может обработать в одном запросе. Выражается в токенах. Например, 128к токенов.

Reasoning — способность языковых моделей рассуждать, выстраивать логическую цепочку и на ее основании принимать решение.

VRAM — объем видеопамяти у видеокарты. Измеряется в гигабайтах, например 24 ГБ или 48 ГБ. Чем мощнее модель, тем больше VRAM потребуется для ее запуска и работы.

Бенчмарки — специальные тесты, при помощи которых оценивают эффективность ИИ в решении задач. Для проверки модели могут использоваться экзаменационные тесты, например по математике, или узкопрофильные — по научным, медицинским, юридическим и другим направлениям.

Квантование — сжатие модели через преобразование формата вычислений ее параметров. Например, изменение данных с 16-битных до 8- и 4-битных чисел. Благодаря этому можно снизить требования LLM к ресурсам системы: VRAM и объему диска. Квантование используется для баланса между задействованными мощностями и необходимой в работе точностью модели. Обозначается следующим образом:

Q2_K — сильное сжатие с серьезным ухудшением точности модели;
Q4_K_M — сбалансированный вариант со сжатием примерно до 30% от полного объема и небольшой потерей точности;
Q5_K_M — сжатие до 40% с возможностью сохранения высокой точности;
Q6_K — сжатие до 50% с сохранением еще более высоких показателей точности;
Q8_0 — сжатие до 55% от общего объема с почти исходной точностью.

Архитектура:

Dense — для обработки каждого запроса использует полный набор параметров. В названии модели с такой архитектурой указывает ее версия и объем параметров.
MoE (Mixture of Experts) — для обработки запроса задействует не все параметры, а лишь их наиболее релевантную долю. В названии такой модели дополнительно указывается количество используемых экспертов.

В одном семействе LLM могут быть версии с разной архитектурой. Например:

Qwen3.6:27b — Dense-модель, которая обрабатывает каждый запрос при помощи всех 27 млрд параметров.
Qwen3.6:35b-a3b — MoE-модель, которая для обработки запросов использует 3 млрд наиболее релевантных параметров от общих 35 млрд.

Gemma — компактные модели от Google

Наиболее актуальная версия — Gemma 4. Это универсальная LLM с возможность использования на разных устройствах и сценариях. Обладает высокой точностью и при этом экономно задействует ресурсы системы.

Локальный запуск

Gemma 4 представлена в четырех размерах: e2b, e4b, 26b и 31b. Подходящий вариант можно развернуть на персональном компьютере или и на арендованных у провайдера серверах, в том числе с GPU. В обоих случаях пользователь получает полный контроль над данными и автономность от вендоров.

Производительность

Gemma 4 может обработать большой объем информации за один запрос: документ, серию файлов, историю сообщений или комментарий, техническое задание и фрагмент кода. e2b и e4b поддерживают контекст до 128 токенов, а 26b и 31b — до 256K.

Флагманская Gemma 4:31b показывает высокие показатели на бенмарках: 89,2% на AIME 2026 по математике, 80% на LiveCodeBench v6 по работе с кодом, 84,3% на GPQA Diamond — в научных задачах.

Для кого подходит

Gemma 4 могут использовать для своих задач самые разные специалисты. Это мультимодальная модель, которая подходит для генерации текста, анализа данных, программирования, создания и запуска AI-агентов.

Gemma 4 e2b — подходит для работы с мобильными устройствами, IoT и офлайн-сценариями. Применима, когда важно обеспечить высокую скорость с минимальным объемом потребляемых ресурсов. Поддерживает работу с аудио.
Gemma 4 e4b — подходит для работы с ассистентами и документами, несложной генерации кода и мультимодальных задач. Поддерживает аудио.
Gemma 4 26b — MoE-модель, которую можно использовать для AI-агентов, бэкенд-сервисов, RAG и высоконагруженного инференса.
Gemma 4 31b — наиболее мощная модель серии. Работает в формате Dense. Подходит для сложных вычислений, включая программирование, математические расчеты и анализ больших объемов данных.

Сильные стороны Gemma 4

Универсальность, мультимодальность и возможность использования подходящего варианта на устройствах с любой производительностью.
Высокая точность на тестах при умеренных запросах к системе. Gemma 4 31b можно развернуть на 18—22 ГБ диска с 24 ГБ VRAM. При этом для локальных задач можно использовать 4 e2b и 4 e4b с VRAM до 3 ГБ при квантовании Q4.
Поддержка пограничных AI-вычислений.

Qwen — одна из наиболее мощных open-source LLM

Ее локальные LLM последнего поколения представлены двумя версиями:

Dense — Qwen3.6-27b;
MoE — Qwen3.6:35b-a3b.

Coding

Qwen3.6 специализируется на задачах с кодом, включая агентное программирование и работу с компьютерным зрением. Модели этой серии могут проанализировать объемный проект и выполнить следующие шаги:

при наличии соответствующих запросов изучить текущие паттерны тестов;
описать структуру файлов и критерии готовности;
создать необходимые тесты через CLI и прямо в репозиторий.

Long context

Модели Qwen3.6 способны работать с максимальным размером контекстного окна до 262k и возможность его расширения до 1М при помощи YaRN. Благодаря этому ей можно отправлять большие запросы, включая кодовые базы.

Multilingual

И весь этот длинный контекст Qwen3.6 может обработать на 201 языке.

Benchmarks

Модели Qwen3.6 демонстрируют достойные результаты в профильных тестах.

Terminal-Bench 2.0:

Qwen3.6-27b — 59.3%
Qwen3.6:35b-a3b — 51.5%

SWE-bench Verified:

Qwen3.6-27b — 77,2%
Qwen3.6:35b-a3b — 73.4%

GPQA Diamond:

Qwen3.6-27b — 87,8%
Qwen3.6:35b-a3b — 86.0%

Сильные стороны:

Работа с кодом различного объема и сложности.
Reasoning — отвечает на основании логического рассуждения.
Длинный контекст с поддержкой множества языков.
Достойные показатели в бенчмарках.

Mistral и Magistral — европейские open weight модели

Mistral AI — французский стартап, который развивает две LLM-линейки: Mistral и Magistral.

Reasoning-focused модели

Это более 20 LLM, ориентированных на рассуждения и бизнес-задачи. Большая часть моделей от Mistral — с открытыми весами.

Архитектура

Развернуть локально можно разные версии с Dense и Moe-архитектурой. Каждая из них обладает своими преимущества и рассчитана на определенные задачи.

Скорость inference и Enterprise AI

Одни из лучших показателей — у mistral-medium-3.5. Она поддерживает контекст до 262k токенов, обладает индексом ИИ 39 и скоростью обработки запросов 164 т/с. Поддерживает до 128 млрд параметров. Но и потребует до 80 ГБ на диске.

При этом самая быстрая модель серий — Devstral Small. Она обрабатывает запросы со скоростью до 216 т/с. Но уступает флагману по другим параметрам. Например, поддерживает контекст в 131к.

Более сбалансированные варианты — magistral:24b и mistral small:24b. Такие модели обеспечат приемлемое количество параметров и потребует меньше ресурсов: 14—17 ГБ на диске и 16—20 ГБ VRAM.

Сильные стороны Mistral и Magistral:

подробное рассуждение на разных языках;
широкий выбор моделей для разных задач, устройств и форматов запуска.

DeepSeek — эффективный AI для программирования

Популярный AI, который наделал много шума на мировом рынке. Представлен множеством моделей с самыми разными характеристиками. Например, полная версия deepseek-r1:671b поддерживает 671 млрд параметров и потребует около 404 ГБ на диске. При этом доступны и намного более компактные варианты.

Open weights

Как и прочие LLM в этом материале, DeepSeek поддерживает локальный запуск — на собственном оборудование или инфраструктуре хостинг-провайдера.

Генерация кода и текстов

DeepSeek полезен при подготовке, проверке и объяснении кода. Есть мнение, что модель особенно раскрывается при аудите готового кода, предоставляя многоэтапный и подробный анализ.

Справится Дипсик и с генерацией текста для статей, лендингов, постов, писем, описаний товаров. Поможет подготовить сценарий или инструкцию.

Reasoning

DeepSeek подумает над ответом, прежде чем им поделиться. И продемонстрирует свои рассуждения при решении математических и логических задач. При этом подробно пояснит каждый шаг, переберет варианты, проверит гипотезы.

Конкуренция с GPT и влияние на индустрию

Выход DeepSeek показал, что коммуникация с ИИ может быть проще и дешевле, чем думают на мировым рынке. И это привело к падению акций крупных игроков.

DeepSeek вшла в январе 2025 года и в течение месяца обогнала ChatGPT по количеству скачиваний в App Store в определенных регионах. Набрав к концу того же месяца 1,6 миллиона скачиваний.

DeepSeek сделал более популярными цепочки размышлений и работу с кодом. И сегодня предоставляет множество моделей для локального запуска.

gpt-oss — открытые LLM от OpenIA

В ответ на выход DeepSeek OpenAI выпустила свои модели с открытыми весами в августе 2025. Ими стали gpt-oss с версиями на 20 и 120 миллиардов параметров.

MoE-архитектура

Обе модели поддерживают контекст до 128k и обрабатывают запросы при помощи Mixture-of-Experts. Для этого gpt-oss:120b задействует примерно 5,1 млрд параметров, а gpt-oss:20b — 3,6.

Reasoning agents

При обработке запросов gpt-oss делится подробным ходом размышлений и при необходимости использует дополнительные инструменты. Например, прежде чем ответит, поищет веб-страницу или проведет вычисления при помощи Python.

Сценарии использования

gpt-oss:120b демонстрирует более высокую точность и глубокое рассуждение. Умеет анализировать большие документы, решать сложные задачи, генерировать код и отвечать на научные вопросы. gpt-oss:120b подойдет, когда нужно обеспечить максимальное качество ответов.

gpt-oss:20b уступает в сложных задачах и при работе с тонкими нюансами. Однако выигрывает в скорости и компактности. Пригодится, когда можно немного пожертвовать параметрами. Например, gpt-oss:20b подходит для запуска небольших ботов в условиях автономности и ограниченных вычислительных ресурсов.

Сильные стороны моделей gpt-oss: высокая точность ответов, экономное использование видеопамяти и других ресурсов за счет MoE-архитектуры и наличия компактной сборки.

Llama — популярная экосистема open LLM

LLaMA (Large Language Model Meta AI) — модели с открытыми весами от Meta. Это универсальные LLM, которые отвечают на вопросы, помогают писать и переводить тексты и готовить инструкции. Llama можно использовать во многих сценариях от AI-ассистента до работы с кодом.

Fine-tuning и Community

Llama поддерживает множество инструмент для профильного дообучения. Например, если нужно адаптировать работу модели под определенную тематику или направление.

При этом у Llama широкое сообщество пользователей, которые помогают развивать поддерживаемые инструменты и улучшать работу модели.

Огромное количество сборок

Llama поддерживает множество версий и вариантов с разным количеством параметров. Вот несколько примеров:

Llama3.2:3b — компактная LLM с 3 млрд параметров. Генерирует 148 т/с.
Llama3.2:11b — отвечает точнее, но немного медленнее 3b.
Llama3.3:70b — мощнее, точнее и подходит для уже более сложных задач.

Есть и еще более производительные модели на 90 и 405 миллиардов параметров.

Self-hosted AI

Множество сборок разной мощности предоставляют разные сценарии использования. Например, запуск небольшой модели на собственном устройстве для самых простых сценариев. Или развертывание объемной модели на арендуемых серверах с GPU. При обоих сценариях — с полным контролем данных и без платной токенизации.

Сильные стороны Llama: гибгий тюнинг, популярность у сообщества и множество сборок для разных сценариев локального использования.

glm-4.7-Flash — LLM для кодинга и сбалансированной аналитики

GLM-4.7-Flash — компактная модель с MoE-архитектурой, 30 млрд параметров и поддержкой контекстного окна до 200k.

Рассуждения и аналитика

GLM-4.7-Flash группирует мысли в логичные цепочки и при этом размышляет перед запуском каждого инструмента.

Она показала достойные результаты в тестах по программирование и высокие — в математическом AIME: 91.6%. Это делает ее эффективным инструментов для аналитики сбалансированной системы показателей, когда используются комплексные данные, а не узкие, например только финансовые.

Кодинг и девопс

За счет точечного тюнинга своих предыдущих версий glm-4.7-Flash серьезно подтянула работу с кодом, с акцентом на порядке и DevOps. Модель научилась не просто писать HTML и CSS, а создавать структурированный код с отступами и актуальными паттернами. При этом ее адаптировали для CLI, рассказав про файловую систему и права доступа.

Сильные стороны: аналитика сбалансированной системы показателей, локальный AI-кодинг.

Сравнение популярных open-weight LLM в 2026 году

Мы рассмотрели множество семейств LLM, примеры отдельных моделей, зоны их применения и технические характеристики. Краткий перечень моделей с локальным запуском — в таблице ниже.

Флагманская модель
(Семейство)

Версии
и сборки

Сильные
стороны

Gemma 4 31b (Gemma)

Четыре модели на 2b, 4b, 26b и 31b

• Универсальность Мультимодальность
• Высокая точность при умеренных требованиях к инфраструктуре
• Поддержка умных устройств

Qwen3.6-27b; Qwen3.6:35b-a3b (Qwen)

Представлена двумя моделями с Dense и MoE-архитектурами

• Поддерживает Reasoning и подходит для работы с кодом
• Включает контекст до 262k токенов с возможностью расширения до 1M через YaRN

mistral-medium-3.5 (Mistral/ Magistral)

• Множество сборок и версий
• Наиболее популярные модели: magistral:24b и mistral small:24b

• Рассуждение на разных языках
• Широкий выбор моделей для разных сценариев и устройств

DeepSeek-V3 / DeepSeek-R1 (DeepSeek)

Множество сборок с возможностью выбора от 1,5b до 671b

• Работа с кодом
• Подготовка текстов
• Глубокие цепочки рассуждений

gpt-oss:120b (gpt-oss)

Две модели: на 120b и 20b

• Флагман справится с генерацией кода и научными задачами.
• А gpt-oss:20b обеспечит скорость и компактность

LLaMA 3.1 405b (Llama)

Множество версий и сборок от 3b до 450b

• Возможность дообучения
• Активное сообщество
• Множество версий для локальных сценариев

glm5.1 (Glm)

Наиболее популярная сегодня — glm4.7-flash

• Рассуждения и аналитика

Open-weight LLM vs закрытые модели

Закрытые коммерческие модели, например GPT, Claude и Gemini, обеспечивают максимальную точность и скорость обработки запросов. В среднем они увереннее справляются с кодом, логическими задачи, подготовкой текстов и поиском информации. Однако открытые модели предоставляют полный контроль над данными, более высокую безопасность и бесплатное локальное использование.

Флагманские закрытые LLM обучены на обширных дата-сетах. С локальными нередко нужно дополнительно поработать. Однако в этом есть и свой плюс: open-weight LLM можно дообучить под задачи конкретного проекта.

Что учесть при локальном запуске LLM с открытыми весами

В контекст LLM под локальным запуском подразумевается развертывание модели на персональном компьютере или арендованном оборудовании. В обоих случаях — автономно от корпораций, владеющих AI-моделью. При этом работа с LLM на отдельном сервере обеспечит безопасную среду с необходимым количеством ресурсов.

Для чего нужна VRAM

Графические процессоры, они же GPU, проводят вычисления при помощи видеопамяти. Изначально VRAM использовалась только для работы с графикой, но затем стала применяться для задач ИИ. Благодаря большому количеству ядер GPU оперативно обрабатывают миллиарды параметров LLM.

Небольшого чат-бота можно развернуть и без профессиональных GPU. При этом все вычисления, для которых не задействуется видеопамять, уйдут оперативной памяти. Но только через RAM языковая модель в целом думает медленнее.

Требуемый объем NVMe/SSD

А еще не стоит забывать о памяти на диске. Общий объем необходимого места зависит от размера самой модели. Чем больше у модели параметров, тем больше ГБ ей потребуется на диске. Но за счет квантования размер LLM можно уменьшить. Например, Qwen3.6:27B в полном размере и BF16-формате потребует 55.6 ГБ. Но при квантовании Q4_K_M ей хватит 16.8 ГБ на диске и столько же видеопамяти.

Установить подходящую модель можно с официального сайта Ollama — специализированного ресурса для работы с LLM. При выборе модели читайте лицензионное соглашение. Даже у LLM c открытыми весами могут быть определенные ограничения. Например, у моделей Llama есть лимит на 700 миллионов активных пользователей в месяц.

Что еще важно учесть?

Использование инструментов, например для обучения модели, потребуют дополнительных ресурсов.

Где запускать open weight LLM?

В зависимости от требований конкретной модели и задач вашего проекта можно рассмотреть следующие варианты.

VPS. Облачные серверы можно запускать и останавливать в пару кликов, в любой момент менять параметры конфигурации и оплачивать только используемые мощности. Стандартные облака подходят для запуска небольших чат-ботов.

GPU-servers. Облачные и выделенные серверы с профессиональными графическими процессорами подходят для размещения моделей любого размера. При этом оба варианта можно использовать для совместных сценариев. Например, в облаке с GPU обучать модель, а на выделенном сервере — запускать готовый AI.

Объектное хранилище S3. Экономный и гибкий сервис для больших объемов неструктурированных данных. В нем можно хранить контент, который используется при работе с ИИ.

Защищенные облачные базы данных. Популярные СУБД с быстрым запуском в облаке. Подходят для гибкой интеграции в работу ИИ по безопасному сценарию.

FAQ

Какую open-weight LLM выбрать в 2026?

Локальные языковые модели с открытыми весами обладают своими сильными сторонами и разной мощностью и скоростью в зависимости от количества параметров. К наиболее популярным и универсальным open-weight LLM можно отнести Gemma 4 и Qwen3.6.

Можно ли заменить ChatGPT open-source или open-weight моделью?

Да. Обычно закрытые модели точнее и быстрее локальных. Но LLM с открытыми весами можно гибко адаптировать под задачи своего проекта и использовать их с полным контролем данных.

Какая модель лучше для работы с кодом?

Это может зависеть от сборки и конкретной задачи. Сегодня для работы с кодом подходят gemma4, qwen3.6, gpt-oss, magistral/mistral, DeepSeek, glm и другие модели.

Какие модели работают локально?

Развернуть на персональном компьютере или арендованном сервере можно Gemma, Qwen, Mistral и Magistral, DepSeek, gpt-oss, Llama, glm и другие LLM.

Сколько VRAM нужно для Llama или Qwen?

Это зависит от конкретной сборки и квантования модели. Например, для уверенной работы Qwen3.6:27B потребуется 16.8—22.5 ГБ видеопамяти при квантовании Q4_K_M или Q5_K_M. А для запуска Llama-3.3-70B с квантованием Q4_K_M понадобится около 43 Гб VRAM.