75 подписчиков
Mistral выкатили новую языковую модель Mixtral 8x22B-v01 и её instruct версию на архитектуре SMoE (sparse Mixture of Experts). До этого они дропнули веса в традиционном стиле — ссылкой на торрент:
magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce
Что нового:
* 8 экспертов, из них 2 активных
* 141B параметров, 39B активных
* Контекст 64К (можно пихать доки и небольшие книги)
* Знает разные языки, включая русский (хотя официально это не указано)
* Улучшенные способности в математике и коде
* Вшитый вызов функций
* Нет цензуры
* Дружелюбная лицензия Apache 2
* Очень эффективна и производительна для своего размера
Однако весит она 262 ГБ, так что погонять на видюхе не выйдет пока не появятся пожатые варики... Хотя внимание теперь уже у ламы 3, которая есть в разных версиях, включая мелкую, но мощную.
PS: а ещё за 3 недели вышли Databricks и Command R+, которые на релизе были в топе опенсорных моделей... Помните такие? Всё меняется очень быстро.
Демо (Perplexity)
Демо (TogetherAI)
Около минуты
20 апреля 2024