419 подписчиков

В ответ на пост

Все профильные каналы сегодня только и говорят в восторженных настроениях, что MoE - это огромный шаг вперед для открытых моделей, и следующий год, благодаря этому, будет богат на прорывы.

MoE или Mixture of Experts - это система, в которой существуют узкоспециализированные "эксперты", каждый решающий свою задачу и руководитель, решающий кто и что будет сейчас решать. То есть, один эксперт в области лингвистики, другой в программировании, третий в юриспруденции и т.д. И каждый эксперт, по сути, является маленькой нейронной сетью.

Давайте посмотрим на примере Mistral 8x7b Small: Если говорить обобщенно, она состоит из 8 экспертных мини-нейросетей на 7B параметров, которые динамически активируются в зависимости от контекста (по утекшим данным, говорят, что подобный, восьми-экспертный, принцип работы реализован в GPT-4). В итоге, получается модель ~на 46.7B параметров, но при формировании ответа активны единовременно только 12.9B , что позволяет получить вывод быстрее, чем на текущих классических 13B моделях.

В итоге, Mixture of Experts позволяет получить более качественные результаты, тратя значительно меньшие деньги и время на обучение модели, а так как это все еще и опенсорс - то в ближайшем будущем позволит создавать различные файн-тюны, постоянно улучшая результаты и добавляя новые возможности.

1 минута

11 декабря 2023