Когда косинусное сходство играет злую шутку: почему не стоит слепо доверять «магической» метрике
Многие дата-саентисты (data scientists) привыкли рассматривать косинусное сходство (cosine similarity) как универсальную «волшебную палочку» для сравнения векторных представлений. Мол, берём два вектора, вычисляем косинус угла между ними и получаем простое число от –1 до 1. И будто бы чем ближе к 1, тем сильнее сходство. Но, как в античном мифе о царе Мидасе, который превратил всё вокруг в золото (даже то, что не стоило превращать), слепое применение косинусного сходства порой ведёт к неожиданно плачевным результатам...
2 года назад
Как использовать GPT-3 для поиска и рекомендаций текстового контента
Источник: Nuances of Programming Статья рассматривает принцип использования векторов GPT-3 для рекомендательной системы, которая посредством косинусного сходства (англ. cosine similarity) находит похожие документы. GPT-3  —  это языковая модель от OpenAI, обученная на огромных количествах текстовых данных. В число ключевых особенностей GPT-3 входит способность генерировать высококачественный текст, а также векторные представления входного текста, которые применяются для разных задач обработки естественного языка, например для анализа сходства документов...