10,6 тыс подписчиков

📈 Анонс Mistral 8x7B-Chat!

Очень мощная модель, построенная на основе новой модели Mistral MoE и обученная на наборе данных SlimOrca.

- Свободно используется по лицензии Apache 2.0

- превосходит Llama 2 70B и работает в 6 раз быстрее.

- Превосходит GPT3.5

- seq_len = 32K

Что такое "Mixture of Experts"?

❓ Чем МЭ отличаются от обычных трансформеров

🏋️‍♀️ Как их обучают

🏎️ Тонкости работы с выводами

Объяснение на тему: https://huggingface.co/blog/moe

Около минуты

11 декабря 2023

📈 Анонс Mistral 8x7B-*Chat*!