Представьте, что вам нужно решить сложную задачу по высшей математике. Вместо того чтобы отвлекать весь штат компании, вы обращаетесь к профильному инженеру — так вы экономите время и ресурсы.
Архитектура нейронных сетей Mixture of Experts (MoE) устроена по похожему принципу. Она помогает обходить аппаратные ограничения: разработчики могут наращивать объём знаний модели без кратного роста стоимости генерации каждого слова. В статье более подробно.
Читайте также: Рейтинг силы ИИ для рабочих задач на каждый день
Что такое «Mixture of Experts» простыми словами
Mixture of Experts (MoE) — это архитектура нейросети, в которой есть несколько «экспертов» (отдельных подсетей), а специальный модуль выбирает, каких из них подключить для обработки каждого фрагмента входа.
Главное отличие от обычной «плотной» (dense) модели в том, что MoE не задействует все параметры одновременно.
В классической большой модели при обработке текста активируется вся сеть — все соответствующие слои и их параметры. В MoE внутри некоторых слоёв размещён набор экспертов, и для каждого токена (токен — это часть слова, слово или знак) запускаются только один или несколько из них.
Поэтому модель может иметь очень большое общее число параметров, но не тратить сопоставимые вычислительные ресурсы на каждый шаг.
Важно: MoE — это не «несколько моделей рядом» и не ансамбль в привычном смысле. Это одна модель с механизмом автоматического выбора подмодулей на каждом шаге обработки.
Статья в тему: Кто такие вайбкодеры и какие нейросети используют?
Как работает архитектура «Mixture of Experts»
В основе архитектуры два элемента: эксперты и маршрутизатор.
Эксперты (Experts) — это малые нейронные подсети внутри общей модели. Каждая из них специализируется на определённых закономерностях в данных.
Маршрутизатор (Router) оценивает входящий токен и решает, какому эксперту его передать.
Процесс выглядит так:
- Текст разбивается на токены.
- Маршрутизатор применяет алгоритм Top-K и выбирает фиксированное число наиболее подходящих экспертов для каждого токена.
Например, при K=2 слово отправляется двум наиболее релевантным подсетям из восьми возможных. В результате модель может иметь огромный общий объём параметров, но в конкретный момент использовать лишь небольшую их часть.
Чтобы нагрузка не концентрировалась на одном «самом сильном» эксперте, при обучении добавляют дополнительную функцию потерь (auxiliary loss). Это искусственный штраф, который заставляет маршрутизатор распределять токены более равномерно.
Зачем это нужно?
MoE позволяет создавать очень большие модели без пропорционального роста вычислительных затрат.
За счёт разрежённой активации модель может иметь значительно больше параметров, чем плотная архитектура при сопоставимой стоимости обработки токена. Например, одна ИИмодель имеет 46,7 млрд параметров, но для каждого токена активирует только 12,9 млрд. Другая — 314 млрд параметров, из которых используется примерно четверть. Это даёт качество, которое раньше требовало гораздо более дорогих вычислений.
Со временем эксперты начинают специализироваться: один лучше обрабатывает научные тексты, другой — код, третий — разговорную речь. Такая специализация повышает точность на разных типах задач.
Практический эффект — скорость и стоимость. На этапе инференса модель задействует меньше ресурсов, отвечает быстрее и обходится дешевле в обслуживании. Поэтому MoE активно применяют в мощных открытых моделях: архитектура помогает сделать систему масштабнее без резкого роста расходов.
Дополнительное преимущество — экономия процессорного времени при обслуживании большого числа запросов. Однако есть инженерный компромисс: снижение вычислительной нагрузки требует большого объёма видеопамяти (VRAM). Даже неактивные эксперты должны находиться в памяти, чтобы мгновенно подключаться к работе.
Поэтому MoE хорошо подходит для высоконагруженных облачных серверов, но значительно сложнее для локального запуска на обычных компьютерах.
Как возник термин «Mixture of Experts»
Термин Mixture of Experts появился задолго до современных языковых моделей.
В 1991 году была опубликована работа «Adaptive Mixtures of Local Experts». Её авторы — Роберт Джейкобс, Майкл Джордан, Стивен Ноулан и Джеффри Хинтон.
В то время нейронные сети были сравнительно небольшими, но уже возникала проблема: одна большая сеть хуже справлялась с задачами, сильно отличающимися друг от друга. Исследователи предложили решение — вместо одной универсальной сети использовать несколько специализированных, «экспертов». Отдельный блок определял, каких из них задействовать в каждом случае.
Эту схему и назвали «смесью экспертов».
Позже, с ростом вычислительных мощностей, идея получила новое развитие. В 2017 году исследователи Google представили работу Sparsely-Gated Mixture-of-Experts, где показали MoE как практическую архитектуру для глубоких сетей — с разрежённым роутингом, выбором top-k экспертов и экономией вычислений.
С этого момента термин закрепился в современном значении: MoE — это единая нейросеть с внутренними экспертами и маршрутизатором, принимающим решения на уровне токенов.
Затем подход перешёл из академических исследований в промышленность: сначала во внутренние системы Google (GShard, Switch Transformers), а позже — в публичные большие языковые модели. Сегодня под MoE-моделью обычно понимают трансформер с MoE-слоями, условными вычислениями и разрежённой активацией экспертов.
ИИ-модели, использующие архитектуру MoE
На рынке ИИ несколько моделей последнего поколения официально или согласно техническим отчётам используют MoE. Это означает, что в них реализованы механизмы условных вычислений: модель сама выбирает, какие части сети активировать для конкретного входа.
— Семейство GLM-5 построено на MoE-архитектуре. По техническим обзорам, модель использует большое число экспертов и активирует ограниченное число параметров на токен, сочетая высокую ёмкость и экономию вычислений.
— DeepSeek-V3 — открытая модель с явно реализованной MoE-архитектурой. Согласно исходному репозиторию, она имеет сотни миллиардов параметров, но активирует лишь часть из них благодаря распределению по экспертам. Это пример современной MoE-реализации с распределённым гейтингом и контролем capacity.
— Согласно техническому препринту, Claude Opus 4.6 от Anthropic применяет MoE или гибридную архитектуру с похожими механизмами балансировки вычислений и структурирования экспертных компонентов.
— Grok 4.2. Компания xAI запустила публичную бета-версию Grok 4.2 — модели с архитектурой условных вычислений, близкой к Mixture of Experts. Внутри системы работают четыре профильных «эксперта», а специальный маршрутизатор анализирует каждый запрос и решает, какой из них подключить.
MoE не является обязательной частью всех крупных моделей. Для некоторых флагманов (например, GPT-5.2) публично не подтверждено использование MoE по состоянию на 2026 год.
Во всех случаях важно помнить: MoE — это не набор отдельных моделей, а одна большая система с внутренним механизмом выбора экспертов. Для пользователя она выглядит как обычный чат-бот или API — архитектурная сложность скрыта внутри.
Коротко о главном
Mixture of Experts — способ строить масштабные модели искусственного интеллекта, сочетая большой общий объём параметров с контролируемыми затратами на вычисления. Именно поэтому архитектура широко применяется в современных больших моделях и продолжает развиваться.
Больше статей по теме нейросетей:
Запись Архитектура «Mixture of Experts»: что это и как применяется в ИИ впервые появилась Postium.