Найти в Дзене
SkyNet | Новости ИИ

Microsoft выпускает новое семейство многоязычных встраиваемых моделей Harrier-OSS-v1

Корпорация Microsoft объявила о выпуске Harrier-OSS-v1 — семейства из трёх многоязычных моделей для встраивания текста, предназначенных для обеспечения высококачественных семантических представлений на широком спектре языков. Основные характеристики В семейство Harrier-OSS-v1 входят три модели с различной масштабируемостью: с 270 миллионами параметров, с 0,6 миллиардами параметров и с 27 миллиардами параметров. Модели Harrier-OSS-v1 достигли передовых результатов (SOTA) на базе данных Multilingual MTEB (Massive Text Embedding Benchmark) v2. Для специалистов в области искусственного интеллекта этот выпуск знаменует собой важную веху в технологии поиска с открытым исходным кодом, предлагая масштабируемый ряд моделей, использующих современные архитектуры больших языковых моделей (LLM) для задач встраивания. Архитектура и основа Семейство Harrier-OSS-v1 отходит от традиционных архитектур двунаправленных кодировщиков (таких как BERT), которые доминировали в области встраивания текста в

Microsoft выпускает новое семейство многоязычных встраиваемых моделей Harrier-OSS-v1

Корпорация Microsoft объявила о выпуске Harrier-OSS-v1 — семейства из трёх многоязычных моделей для встраивания текста, предназначенных для обеспечения высококачественных семантических представлений на широком спектре языков.

Основные характеристики

В семейство Harrier-OSS-v1 входят три модели с различной масштабируемостью: с 270 миллионами параметров, с 0,6 миллиардами параметров и с 27 миллиардами параметров.

Модели Harrier-OSS-v1 достигли передовых результатов (SOTA) на базе данных Multilingual MTEB (Massive Text Embedding Benchmark) v2. Для специалистов в области искусственного интеллекта этот выпуск знаменует собой важную веху в технологии поиска с открытым исходным кодом, предлагая масштабируемый ряд моделей, использующих современные архитектуры больших языковых моделей (LLM) для задач встраивания.

Архитектура и основа

Семейство Harrier-OSS-v1 отходит от традиционных архитектур двунаправленных кодировщиков (таких как BERT), которые доминировали в области встраивания текста в течение многих лет. Вместо этого эти модели используют архитектуры, основанные только на декодерах, аналогичные тем, что используются в современных больших языковых моделях (LLM).

В модели, основанной только на декодере, каждый токен может учитывать только те токены, которые идут перед ним. Чтобы получить единый вектор, представляющий весь входной текст, Harrier использует объединение последнего токена. Это означает, что скрытое состояние последнего токена в последовательности используется в качестве совокупного представления текста, которое затем подвергается L2-нормализации для обеспечения согласованности вектора.

Технические характеристики

Модели Harrier-OSS-v1 характеризуются различными размерами встраивания и последовательной поддержкой длинных контекстов.

Окно контекста в 32 768 (32k) токенов во всех трёх размерах является важной особенностью для систем генерации с извлечением (RAG). Большинство традиционных моделей встраивания ограничены 512 или 1024 токенами. Расширенное окно позволяет разработчикам встраивать значительно более крупные документы или файлы кода без необходимости агрессивного разбиения на части, которое часто приводит к потере семантической согласованности.

Реализация: встраивания на основе инструкций

Одним из наиболее важных операционных аспектов для разработчиков ИИ является то, что Harrier-OSS-v1 — это семейство встраиваний, настроенных на основе инструкций. Для достижения эталонных показателей производительности модели необходимо предоставлять инструкции, специфичные для задачи, во время запроса.

Формат запроса должен выглядеть следующим образом:

`"Instruct: Retrieve semantically similar text\nQuery: [User input text]"`

Этот подход, основанный на инструкциях, позволяет модели динамически настраивать своё векторное пространство в зависимости от задачи, повышая точность поиска в разных доменах, таких как веб-поиск или битекстовый майнинг.

Обучение и дистилляция знаний

Разработка семейства Harrier-OSS-v1 включала многоэтапный проц...

Читать далее