Найти в Дзене
Максим Кульгин

В проекте poisk.im ребята стали использовать эту модель - sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

Цель - векторизация названий товаров для поиска схожих. Если подать на вход два слова «автомобиль» и «машина», модель вернёт для каждого слова длинный числовой вектор (эмбеддинг) - по сути список чисел (обычно размерность 384 числа). Дальше эти два вектора сравнивают (чаще всего косинусной близостью): так как слова близки по смыслу, итоговый similarity будет высоким (ближе к 1, чем к 0). Это я очень просто написал :) - сам сидел разбирался. Как это детально работает не знаю, да и не важно - главное что модель хорошая и русский поддерживает. Русский ИТ бизнес

В проекте poisk.im ребята стали использовать эту модель - sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. Цель - векторизация названий товаров для поиска схожих.

Если подать на вход два слова «автомобиль» и «машина», модель вернёт для каждого слова длинный числовой вектор (эмбеддинг) - по сути список чисел (обычно размерность 384 числа). Дальше эти два вектора сравнивают (чаще всего косинусной близостью): так как слова близки по смыслу, итоговый similarity будет высоким (ближе к 1, чем к 0).

Это я очень просто написал :) - сам сидел разбирался. Как это детально работает не знаю, да и не важно - главное что модель хорошая и русский поддерживает.

Русский ИТ бизнес