Найти тему
78 подписчиков

Databricks выпустили DBRX — открытую модель, которая показывает себя лучше многих опенсорсных, GPT-3.5, а также может посоперничать с Gemini 1.0 Pro. Помимо широких общих знаний, она особенно хорошо работает с кодом и превосходит CodeLLaMA-70B.


Это тоже MoE (mixture of experts) как Mixtral, но с оптимизацией на тренировке и генерациях. Также здесь количество экспертов больше (всего 16 и 4 активных), а сами они меньше, в то время как, например, у Grok-1 их 8 и 2 соответственно.

DBRX вдвое быстрее ламы 2-70B и почти в половину меньше Grok-1: 132B общих параметров и 36B активных. Натренирована на 12Т данных текста и кода, и ей нужно в 4 раза меньше мощностей для выходы на результаты топовых моделей. Длинна контекста 32К.

На видюху к сожалению не влезет, будем ждать квантизированные или уменьшенные варианты.


PS: лидерборд из прошлого поста уже пора обновить.
Databricks выпустили DBRX — открытую модель, которая показывает себя лучше многих опенсорсных, GPT-3.5, а также может посоперничать с Gemini 1.0 Pro.
Около минуты