Методы на базе WordNet
Одной из самых важных и популярных баз знаний является WordNet. Моя статья иллюстрирует некоторые из наиболее известных методов, основанных на WordNet, которые позволяют нам вычислить сходство между словами:
1) Измерение длины пути:
Этот алгоритм основан на предположении, что чем короче путь между двумя словами, тем ближе они находятся между ними.
2) Leacock-Chodorow Measure:
Этот метод является продолжением метода PathLength, который масштабирует длину пути по глубине иерархии, определяемой как длина самого длинного пути от узла листа до корня иерархии.
3) Измерение сходства Резника:
Этот алгоритм использует структуру тезауруса и объединяет ее с вероятностной информацией, извлеченной из тезауруса. Мера сходства Резника предполагает, что семантическое сходство двух понятий пропорционально объему информации, которой они обмениваются.
4) Измерение схожести линий:
Это является продолжением схожести Резника, вводя общие и отличные показатели. Общность - это мера, указывающая на то, как много общего у двух концепций. Разница заключается в том, что чем больше различий между двумя концепциями, тем больше они отличаются друг от друга.
5) Расстояние Чжан-Конрат:
Этот метод измеряет несвязанность между двумя концепциями.
6) Hirst-St.Onge Measure:
Алгоритм классифицирует отношения WordNet по трем категориям: вверх, вниз или горизонтально. Существуют также четыре уровня родства: очень сильный, сильный, средний и слабый. Чрезвычайно прочные и прочные отношения включают в себя слова одного и того же понятия (горизонтальное отношение). Этот алгоритм вычисляет отношение длины пути между концепциями и количеством изменений направления на этом пути.
Более того, разработчики создали свободно доступный пакет программного обеспечения, позволяющий измерять семантическое сходство и взаимосвязанность между двумя понятиями (или синтаксисами). Он предусматривает шесть показателей сходства и три показателя родства, все из которых основаны на WordNet (включая все методы, показанные выше). Эти меры реализуются как Perl-модули под названием WordNet:Likeity , которые принимают в качестве ввода два понятия, и возвращают числовое значение, представляющее степень их сходства.
Методы, основанные на Википедии
В последнее время появился новый подход: создание базы знаний широкого охвата на основе энциклопедий, разработанных сообществами Web2.0, такими как Википедия.
Википедия - это многоязычная веб-энциклопедия, написанная совместно волонтерами и доступная бесплатно. В этом разделе описываются некоторые методы, основанные на Википедии, которые позволяют нам вычислить схожесть понятий:
1) WikiRelate!
Эта система, разработанная и основаная на методах WordNet, и переработана для работы с Википедией. WikiRelate! извлекает все страницы из Википедии, содержащие два слова, для которых мы хотим вычислить сходство, а затем вычисляет текст, совпадающий с содержанием статей.
2) Векторная модель ссылки Википедии:
Этот метод основан на структуре ссылок и названиях статей Википедии. Система рассчитывает схожесть вычислений угла между векторами связей, взвешивая их по вероятности каждого звена.
3) WikiWalk:
Это метод, который использует алгоритмы случайной ходьбы на графике для измерения семантического сходства между словами. График создается путем представления каждой статьи в виде узла, а каждой связи между статьями - в виде ребра. Получив два слова, WikiWalk использует Явный семантический анализ, чтобы найти их соответствующие узлы в графике Википедии. После привязки слов к конкретным узлам вычисляется семантическое сходство путем применения персонализированного Pagerank'а для каждого слова для создания вероятностного распределения связанных узлов. Окончательную оценку дает косинус угла между векторами их распределения вероятностей.
Корпусное сходство словосочетаний
Крупные корпорации также использовались в качестве источника данных для семантического сходства. Возможность применения описательных подходов (тех, которые позволяют получить необходимые знания из природного источника данных без каких-либо ранее существовавших рамок) с использованием статистических методов, располагая информацией о частоте использования и т.д., имеет решающее значение для извлечения важной информации, связанной с языковыми явлениями. Таким образом, неструктурированные лексические ресурсы, такие как одноязычные и двуязычные корпуса, являются дополнительным, но менее организованным источником семантического сходства.
Распределительная семантика
Моделирование распределительной семантики является активной областью исследований в области обработки естественного языка. В дистрибутивной семантике значение слова исследуется, глядя на его распространение в текстах. Вы должны знать слово в компании, в которой оно хранится! Совокупность контекстов слов, представленных в виде характерных векторов в объемном векторном пространстве, свидетельствует об их значении. Эти модели получили название Vector Space Models.
Подписывайтесь на мой интеллектуальный контент, ставьте лайки и задавайте вопросы по теме! Постараюсь ответить на все.
В будущем планирую более подробно описать все в этой теме, спасибо!