78 подписчиков
Databricks выпустили DBRX — открытую модель, которая показывает себя лучше многих опенсорсных, GPT-3.5, а также может посоперничать с Gemini 1.0 Pro. Помимо широких общих знаний, она особенно хорошо работает с кодом и превосходит CodeLLaMA-70B.
Это тоже MoE (mixture of experts) как Mixtral, но с оптимизацией на тренировке и генерациях. Также здесь количество экспертов больше (всего 16 и 4 активных), а сами они меньше, в то время как, например, у Grok-1 их 8 и 2 соответственно.
DBRX вдвое быстрее ламы 2-70B и почти в половину меньше Grok-1: 132B общих параметров и 36B активных. Натренирована на 12Т данных текста и кода, и ей нужно в 4 раза меньше мощностей для выходы на результаты топовых моделей. Длинна контекста 32К.
На видюху к сожалению не влезет, будем ждать квантизированные или уменьшенные варианты.
Около минуты
1 апреля 2024