75 подписчиков

Mistral выкатили новую языковую модель Mixtral 8x22B-v01 и её instruct версию на архитектуре SMoE (sparse Mixture of Experts). До этого они дропнули веса в традиционном стиле — ссылкой на торрент:

magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce

Что нового:

* 8 экспертов, из них 2 активных

* 141B параметров, 39B активных

* Контекст 64К (можно пихать доки и небольшие книги)

* Знает разные языки, включая русский (хотя официально это не указано)

* Улучшенные способности в математике и коде

* Вшитый вызов функций

* Нет цензуры

* Дружелюбная лицензия Apache 2

* Очень эффективна и производительна для своего размера

Однако весит она 262 ГБ, так что погонять на видюхе не выйдет пока не появятся пожатые варики... Хотя внимание теперь уже у ламы 3, которая есть в разных версиях, включая мелкую, но мощную.

PS: а ещё за 3 недели вышли Databricks и Command R+, которые на релизе были в топе опенсорных моделей... Помните такие? Всё меняется очень быстро.

Анонс

Демо (Perplexity)

Демо (TogetherAI)

Арена чатботов

Хаггинг

Mistral выкатили новую языковую модель Mixtral 8x22B-v01 и её instruct версию на архитектуре SMoE (sparse Mixture of Experts).

Около минуты

20 апреля 2024