Добавить в корзинуПозвонить
Найти в Дзене
РР-Новости

VK представила новую модель RuModernBERT для обработки естественного языка

Компания VK (бывшая Mail.ru Group) представила новую модель RuModernBERT, предназначенную для обработки естественного русского языка. Данная модель способна анализировать длинные тексты целиком, без необходимости их разбивки на фрагменты, и функционирует локально, что позволяет снизить нагрузку на инфраструктуру. Разработчики отмечают, что RuModernBERT предназначена для решения множества задач в области обработки текста. Она может использоваться для извлечения информации, анализа тональности, а также поиска и ранжирования контента в различных приложениях и сервисах. Модель понимает сложные запросы пользователей, что позволяет ей находить наиболее релевантные результаты, такие как видео, товары или документы. Модель была обучена на 2 триллионах токенов данных, включая материалы на русском и английском языках, а также код. Максимальная длина контекста, которую может обрабатывать RuModernBERT, составляет 8192 токена. В процессе обучения использовались различные источники данных, такие как

Компания VK (бывшая Mail.ru Group) представила новую модель RuModernBERT, предназначенную для обработки естественного русского языка. Данная модель способна анализировать длинные тексты целиком, без необходимости их разбивки на фрагменты, и функционирует локально, что позволяет снизить нагрузку на инфраструктуру.

Разработчики отмечают, что RuModernBERT предназначена для решения множества задач в области обработки текста. Она может использоваться для извлечения информации, анализа тональности, а также поиска и ранжирования контента в различных приложениях и сервисах. Модель понимает сложные запросы пользователей, что позволяет ей находить наиболее релевантные результаты, такие как видео, товары или документы.

Модель была обучена на 2 триллионах токенов данных, включая материалы на русском и английском языках, а также код. Максимальная длина контекста, которую может обрабатывать RuModernBERT, составляет 8192 токена. В процессе обучения использовались различные источники данных, такие как книги, статьи и комментарии в социальных сетях, что помогает адаптировать её к современным текстам и учитывать разговорную речь.

RuModernBERT доступна в нескольких версиях: одной на 150 миллионов параметров и облегчённой модели на 35 миллионов параметров. Также были обновлены дополнительные версии USER и USER2, которые позволяют инженерам более эффективно группировать и искать похожую информацию. В версии USER2 применяется специальная технология, позволяющая уменьшить объем данных с минимальной потерей точности.

Благодаря своей архитектуре, RuModernBERT работает быстрее аналогичных моделей: обучение и развертывание на конечных устройствах происходят на 10–20% быстрее, а обработка данных— в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT. При оценке на валидационном датасете модель демонстрирует превосходные результаты в области обработки естественного языка, обгоняя существующие аналоги. Модель уже внедрена в продукты и сервисы VK, которые ежедневно используются десятками миллионов людей.

]]>