Приветствую на моем канале! В этой статье я расскажу Вам о методах определения семантики в словах. Имеют ли слова какие-либо общие значения?
Сходство слов
Общепризнано, что существует по крайней мере два вида методов определения того, имеют ли два слова какое-либо общее значение.
Первое представляет собой основанные на знаниях методы словосочетания, основанные на структурированных ресурсах, таких как:
- моноязычные словари,
- двуязычные словари,
- тезаурус
- энциклопедии.
Базы знаний очень полезны, поскольку они представляют собой хорошо структурированный и релевантный источник информации о словах и значениях. Некоторые из наиболее используемых ресурсов этого типа - WordNet и Википедия . Алгоритмы, основанные на подобного рода ресурсах, часто используют гиперонимные/гипонимные связи (например, в WordNet) для вычисления семантики между двумя словами.
Корпусные методы словесного сходства используют крупные корпорации в качестве источника данных для словесного сходства. Возможность применения описательных подходов с использованием статистических методов, обладание информацией о частоте использования и т.д. имеет решающее значение для извлечения важной информации, связанной с языковыми явлениями. Таким образом, неструктурированные лексические ресурсы, такие как одноязычные и двуязычные корпуса, являются дополнительным, хотя и менее организованным источником словесного сходства. Широко используемым представлением признаков в документе (или корпусе) является векторная космическая модель (VSM).
Эти методы применяются на уровне слов, и очень немногие - на уровне предложений.
Это связано с композиционностью, которая делает расчет сходства между предложениями очень сложным и трудным. Например, составное значение слов "яблоко" и "большое" может быть не "большое яблоко", а "Нью-Йорк". Важна композиция, так как она позволяет связать "столицу Швейцарии" с "Берном". В этом тезисе я прямо не рассматриваю композиционность, но она подразумевается в системе.
Сходство слов, основанных на знаниях
В NLP широко изучалось использование онлайновых словарей или машинно-читаемых словарей (MRDs), термин, введенный в 80-е годы для обозначения словарей для использования человеком в цифровой поддержке, в надежде, что моноязычные и двуязычные словари могут стать выходом из семантического сходства. Несмотря на то, что MRD построены для использования человеком и решают такие проблемы, как несоответствия, слишком тонкая двусмысленность, круговые определения и т.д. MRD, казалось, предлагают возможность огромной экономии времени и человеческих усилий.
Базы знаний и ресурсы
WordNet
Это лексическая база данных для английского языка. Его дизайн вдохновляется современными психолингвистическими и вычислительными теориями лексической памяти человека. На сегодняшний день WordNet является наиболее широко используемой базой лексических знаний. Она содержит закодированную вручную информацию об английских существительных, глаголах, прилагательных и наречиях и организована вокруг понятия "синсет". Синсет - это набор слов с одной и той же частью речи, которые могут быть заменены в определенном контексте. Например, учащиеся, учащиеся и воспитанники образуют систему, потому что их можно использовать для обозначения одного и того же понятия. Синсет часто далее описывается глянцем, в случае вышеуказанных синсетов - "учащийся, зачисленный в учебное заведение", и явными семантическими связями с другими синсетами. Каждая система представляет собой понятие, связанное с другими понятиями посредством 26 семантических связей, включая гиперонимию/гипонимию, меронимию/голонимию, антонимию, влечение и т.д. Синхемы взаимосвязаны концептуально-семантическими и лексическими связями. Образовавшаяся в результате этого сеть обеспечивает конструктивное взаимодействие слов и понятий, а ее структура делает ее полезным инструментом для вычислительной лингвистики и обработки естественного языка. Он используется в широком спектре задач НЛП, таких как извлечение информации, автоматическое обобщение, ответы на вопросы, лексическое расширение в качестве источника знаний или словаря. WordNet был создан и поддерживается в Лаборатории когнитивных наук Принстонского университета под руководством профессора психологии Джорджа А. Миллера. Его разработка началась в 1985 году. На протяжении многих лет проект финансировался различными государственными органами. WordNet свободно и публично доступен для скачивания. Реальная версия WordNet 1.3, но эта версия доступна только онлайн. Последняя версия WordNet для Unix-подобных систем - 3.0, содержит 82 115 существительных, 13 767 глаголов, 18 156 прилагательных и 3 621 наречие, в общей сложности 117 659 синонимов. С версии 1.5 до версии 3.0 WordNet был увеличен почти на 26 000 новых синтаксисов.
Википедия
Это бесплатная онлайн энциклопедия, цель которой - дать возможность редактировать статьи любому желающему. Википедия доступна на 295 языках. Английская версия Википедии содержит более 5 363 191 статей и является самой большой из 295 языков. Содержание Википедии можно разделить на статьи, категории, перенаправление и дезагрегирование страниц. Используя эту структуру, мы можем построить граф, используя статьи и категории как узлы и ссылки как ребра. Для сбора этих ссылок в тексте каждой статьи необходимо искать гиперссылку на другие статьи или категории. Страницы категорий также содержат гиперссылки на другие страницы категорий, создающие структуру категорий. Кроме того, в Википедии можно также создать словарь со всеми строками. В этом словаре каждая строка будет содержать все возможные статьи, на которые можно ссылаться. Эти статьи могут быть взвешены по их вероятности быть фактической ссылкой на статью в словаре. (Например, в словарной статье для словаря "Надаль" статья "Рафаэль Надаль" должна иметь большую вероятность, чем статья "Лимари Надаль").
Ставьте лайки, если вам приходится по душе данная тема, и в скором времени я постараюсь понятно описать основные методы Википедии и WordNet. Давайте просвещаться вместе!