90 подписчиков

Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс

Как работает архитектура MoE

Скачать модель для локалки

Демо (ChatArena) - сравниваем бок о бок с другими моделями

Демо (Perplexity)

Демо (TogetherComputer)

Демо (HuggingChat)

Демо (HuggingFace)

Модель в формате MLX для компов Apple.

Герганов уже впилил в llama.cpp

Торрент:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce

К слову за год вышла не одна работа по MoE:

* ModuleFormer от IBM

* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.

* MoWE: архитектура с упором на малое требование к ресурсам.

* Mobile V-MoEs от Apple.

* SMoE как решение проблем MoE архитектуры.

* SMEAR градиентное обучение через слияние экспертов.

* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.

00:20

1 минута

13 декабря 2023