Найти в Дзене
10,6 тыс подписчиков

📈 Анонс Mistral 8x7B-*Chat*!


Очень мощная модель, построенная на основе новой модели Mistral MoE и обученная на наборе данных SlimOrca.

- Свободно используется по лицензии Apache 2.0
- превосходит Llama 2 70B и работает в 6 раз быстрее.
- Превосходит GPT3.5
- seq_len = 32K

Скачать можно здесь: https://huggingface.co/mattshumer/mistral-8x7b-chat


Что такое "Mixture of Experts"?
❓ Чем МЭ отличаются от обычных трансформеров
🏋️‍♀️ Как их обучают
🏎️ Тонкости работы с выводами

Объяснение на тему: https://huggingface.co/blog/moe

Около минуты