Найти тему
75 подписчиков

Mistral выкатили новую языковую модель Mixtral 8x22B-v01 и её instruct версию на архитектуре SMoE (sparse Mixture of Experts). До этого они дропнули веса в традиционном стиле — ссылкой на торрент:


magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce

Что нового:
* 8 экспертов, из них 2 активных
* 141B параметров, 39B активных
* Контекст 64К (можно пихать доки и небольшие книги)
* Знает разные языки, включая русский (хотя официально это не указано)
* Улучшенные способности в математике и коде
* Вшитый вызов функций
* Нет цензуры
* Дружелюбная лицензия Apache 2
* Очень эффективна и производительна для своего размера

Однако весит она 262 ГБ, так что погонять на видюхе не выйдет пока не появятся пожатые варики... Хотя внимание теперь уже у ламы 3, которая есть в разных версиях, включая мелкую, но мощную.

PS: а ещё за 3 недели вышли Databricks и Command R+, которые на релизе были в топе опенсорных моделей... Помните такие? Всё меняется очень быстро.

Демо (Perplexity)
Демо (TogetherAI)
Mistral выкатили новую языковую модель Mixtral 8x22B-v01 и её instruct версию на архитектуре SMoE (sparse Mixture of Experts).
Около минуты