Введение
Семантическая сеть — информационная модель предметной области, имеет вид ориентированного графа. Вершины графа соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть: понятия, события, свойства, процессы. Таким образом, семантическая сеть — это один из способов представления знаний.
В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа — набора вершин, соединённых дугами (рёбрами), которым присвоено некоторое число. В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.
Неправильно приравнивать друг другу понятия «Семантическая сеть» и «Семантическая паутина». Хотя эти понятия не эквивалентны, тем не менее, они связаны.
Идея систематизации на основе каких-либо семантических отношений предлагалась ещё учёными ранней науки. Примером этого может служить биологическая классификация Карла Линнея 1735 г. Если рассматривать её как семантическую сеть, то в данной классификации используется отношение подмножества, современное AKO.
Прародителями современных семантических сетей можно считать экзистенциальные графы, предложенные Чарльзом Пирсом в 1909 г. Они использовались для представления логических высказываний в виде особых диаграмм. Пирс назвал этот способ «логикой будущего».
Важным направлением в исследовании сетей стали работы немецкого психолога Отто Зельца 1913 и 1922 гг. В них для организации структур понятий и ассоциаций, а также изучения методов наследования свойств он использовал графы и семантические отношения. Исследователи М. Андерсон (1973), Д. Норман (1975) и другие использовали эти работы для моделирования человеческой памяти и интеллектуальных свойств.
Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу. Процесс машинного перевода подразделяется на 2 части: перевод исходного текста в промежуточную форму представления, а затем эта промежуточная форма транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети. В 1961 г. появилась работа Мастерман, в которой она, в частности, определяла базовый словарь для 15000 понятий. Эти исследования были продолжены Робертом Симмонсом (1966), Й. Уилксом (1972) и другими учёными.
Труды по семантическим сетям часто ссылаются на работу американского психолога Росса Квиллиана о «семантической памяти».
Семантические сети
Структуры семантических сетей
Структура семантической сети отображается графически с помощью узлов и дуг, соединяющих их. Узлы называются объектами, а дуги - связями или ребрами. Связи в семантической сети применяются для представления отношений, а узлы, как правило для представления физических объектов, концепций или ситуаций.
Для семантических сетей отношения имеют особо важное значение, поскольку образуют базовую структуру для организации знаний. Знания, заданные без учета отношений, превращаются просто в коллекцию несвязанных фактов.
Только при определении отношений, знания приобретают вид связанной структуры, исследование которой позволяет логическим путем создавать другие знания.
Семантические сети иногда называют ассоциативными сетями, так узлы таких сетей связаны, то есть ассоциированные между собой. В научных исследованиях Квиллиана, человеческая память от начала моделировалась как ассоциативная сеть, в которой понятия были представлены в виде узлов, а связи показывали, как эти понятия сочетаются друг с другом.
Разновидности записей
Графическое представление
Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами. Это наиболее удобно воспринимаемая человеком форма. Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.
Математическая запись
В математике граф представляется множеством вершин V и множеством отношений между ними E. Используя аппарат математической логики, приходим к выводу, что каждая вершина соответствует элементу предметного множества, а дуга — предикату.
Лингвистическая запись
В лингвистике отношения фиксируются в словарях и в тезаурусах. В словарях в определениях через род и видовое отличие родовое понятие занимает определённое место. В тезаурусах в статье каждого термина могут быть указаны все возможные его связи с другими родственными по теме терминами. От таких тезаурусов необходимо отличать тезаурусы информационно-поисковые с перечнями ключевых слов в статьях, которые предназначены для работы дескрипторных поисковых систем.
Семантические отношения
Семантические отношения, называемые также парадигматическими семантическими отношениями и (иногда) лексическими отношениями, – это отношения между лексическими единицами (словами, словосочетаниями) в рамках заданной семантической парадигмы (семантического поля). Понятия, принадлежащие к одному полю, по-разному соотносятся друг с другом по смыслу - выступают родовыми концептами ("собака" - "животное"), составными частями ("собака" - "хвост"), синонимами ("собака" - "пес") и др. Семантические отношения описывают именно эти связи и различия.
Такие парадигматические отношения в лингвистике традиционно противопоставляются синтагматическим - первые, в отличие от вторых, не относятся к конкретной языковой ситуации и существуют вне зависимости от текста в сознании носителя языка. Так, "конь" (в значении самец лошади) всегда будет видом "животного", а "ахалтекинец" - подвидом "коня", эти зависимости не меняются от конкретных обстоятельств. Можно считать, что, выставляя семантические отношения, мы работаем с тем самым сферическим конем в вакууме.
Синонимия
Cинонимами считаются лексические единицы с полностью или частично совпадающими значениями. В первом случае речь идет о явлении точной или полной синонимии, во втором – о квазисинонимии. Примерами полных синонимов в русском языке могут считаться пары "заснуть" – "уснуть", "везде" – "всюду". Точная синонимия внутри одного языка – редкое явление, чаще всего она связана с дублированием смыслов из-за заимствований ("бегемот" – "гиппопотам", "плебисцит" – "референдум", "полиграф" – "детектор лжи"). Впрочем, и такие пары по мере освоения в языке начинают отходить друг от друга, приобретают стилистические различия и прекращают быть взаимозаменяемыми. Так, нередко в качестве примера точной синонимии приводят "лингвистику" и "языкознание", однако сегодня трудно сказать "компьютерное языкознание" или "общая лингвистика". Выделяются также межъязыковые полные синонимы, которых существенно больше. Таковыми являются, например, русское слово "четверг", английское "thursday" и французское "jeudi".
Квазисинонимы имеют частично пересекающиеся значения и взаимозаменяемы в некоторых контекстах. Образцами здесь могут служить пары "жадный" – "скупой" (в первом значении акцент на стремлении завладеть чужим, во втором - на нежелании расставаться со своим), "нести" – "тащить" (ср."нести салфетки ко столу" - ?"тащить салфетки ко столу") или "талантливый" – "гениальный" (ср. "он был весьма талантливый повар" – ?"он был весьма гениальный повар"). Частая разновидность квазисинонимов – экспрессивно-стилистические, когда отличаются оценочные компоненты значения и стилистическая окраска. Хрестоматийными примерами являются "глаза" – "очи" – "гляделки" - "моргалы" в русском и "policeman" – "cop" в английском.
Родовидовые отношения (гипер/гипонимия)
Родовидовые отношения (гипер/гипонимия), также известные как отношения типа is-a, связывают лексические единицы, обозначающие родовое понятие (гипероним), с отдельными видами (гипонимами). Такими отношениями связаны пары "собака" – "пудель", "автомобиль" – "внедорожник", "спорт" – "хоккей". В последнем случае "футбол" и "регби" будут называться когипонимами "хоккея".
Помимо существительных, гиперонимы выделяют и у глаголов (например, в WordNet). Однако при этом вторым элементом пары, объединяемой в отношение, становится не гипоним, а так называемый тропоним (термин, введенный создателями WordNet). Тропонимия уточняет образ действия, обозначаемого глаголом. Так, для гиперонима "готовить" (cook) одним из тропонимов является "жарить" (fry).
Сторонники большей формализации лексических онтологий предлагают обособленно выделять отношения типа класс-экземляр [3] (в англоязычных источниках - instanceOf). Такими отношениями связаны, например, слова "Москва" и "город".
Также осмысленно выделять ролевые отношения, которые не являются столь же твердыми is-a конструкциями, как обычные родовидовые пары. К примеру, "альпака" всегда остается видом "ламы", но "пациент", "клиент" или "заключенный", строго говоря, едва ли могут считаться постоянно существующим видами "человека".
Отношение «часть – целое» (холо/меронимия)
Отношение «часть – целое» соединяет имя некой сущности с названиями ее составных частей. Так, в WordNet холониму "самолет" соответствуют меронимы "двигатель", "фюзеляж", "шасси", "крыло" и др., а холониму "крыло" – меронимы "элерон", "закрылок" и "ребро".
Антонимия
Антонимами называют такие лексические единицы, значения которых противоположны друг другу. Выделяется три основных вида антонимии. 1. Комплементарная, когда один из антонимов исключает присутствие второго ("живой" - "мертвый", "спать" - "бодрствовать"), при этом вместе они полностью охватывают некий смысловой домен (т.е. пары типа "сидеть" – "стоять", "деревянный" - "железный" не подходят, хотя и отвечают первому требованию). 2. Векторная, когда антонимы относятся к разнонаправленным действиям или процессам.E.g: "приехать" - "уехать", "вспыхнуть" – "потухнуть", "взлететь" – "приземлиться" и т.п. 3. Контрарная – антонимы обозначают две крайние точки одной шкалы: "жара" - "холод", "высокий" – "низкий".
Конверсивность
Конверсивы описывают одну и ту же ситуацию глазами разных участников, например, "продать" – "купить", "выиграть" – "проиграть", "опережать" (на N баллов) - "отставать" (на N баллов). Это может показаться похожим на антонимы, но там ситуации объективно противоположные ("живой" - "мертвый"), а здесь - одна, и разница – субъективна.
Примеры использования
Ворднет
Примером семантической сети является WordNet, лексическая база данных английского языка. Он группирует английские слова в наборы синонимов, называемые синсетами, предоставляет краткие общие определения и записывает различные семантические отношения между этими наборами синонимов. Некоторыми из наиболее распространенных семантических отношений являются меронимия (А является меронимом В, если А является частью В), холонимия (В является холонимом А, если В содержит А), гипонимия (или тропонимия ) (А является подчиненным В ; А является разновидностью Б), гипернимия (А выше В), синонимия (А обозначает то же, что и В) и антонимия(A обозначает противоположность B).
Свойства WordNet изучались с точки зрения теории сетей и сравнивались с другими семантическими сетями, созданными на основе Тезауруса Роже и задач на ассоциации слов. С этой точки зрения три из них представляют собой маленькую мировую структуру.
Другие примеры
Также возможно представлять логические описания с использованием семантических сетей, таких как экзистенциальные графы Чарльза Сандерса Пирса или родственные концептуальные графы Джона Ф. Сова. Они имеют выразительную силу, равную или превышающую стандартную логику предикатов первого порядка. В отличие от WordNet или других лексических сетей или сетей просмотра, семантические сети, использующие эти представления, могут использоваться для надежного автоматического логического вывода. Некоторые автоматические логические алгоритмы используют теоретико-графовые особенности сетей во время обработки.
Другими примерами семантических сетей являются модели Gellish. Gellish English со словарем Gellish English является формальным языком. Которая определяется как сеть отношений между понятиями и именами понятий. Гелловский английский — это формальное подмножество естественного английского точно так же, как гелевый голландский — это формальное подмножество нидерландского, тогда как во многих языках используются одни и те же концепции. Другие сети Gellish состоят из моделей знаний и информационных моделей, которые выражены на языке Gellish. Сеть Гелиша — это сеть (бинарных) отношений между вещами. Каждое отношение в сети является выражением факта, который классифицируется по типу отношения. Каждый тип отношения сам по себе является концепцией, которая определена в словаре языка геллиш. Каждая связанная вещь является либо концептом, либо отдельной вещью, которая классифицируется концептом. Определения понятий создаются в виде моделей определений (сетей определений), которые вместе образуют словарь Gellish.
SciCrunch — это совместно редактируемая база знаний для научных ресурсов. Он предоставляет однозначные идентификаторы (идентификаторы исследовательских ресурсов или RRID) для программного обеспечения, лабораторных инструментов и т. д., а также предоставляет возможности для создания ссылок между RRID и от сообществ.
Другим примером семантических сетей, основанных на теории категорий, являются ологи. Здесь каждый тип — это объект, представляющий множество вещей, а каждая стрелка — это морфизм, представляющий функцию. Коммутативные диаграммы также предписаны для ограничения семантики.
В социальных науках люди иногда используют термин семантическая сеть для обозначения сетей совместного возникновения. Основная идея заключается в том, что слова, которые встречаются в единице текста, например, в предложении, семантически связаны друг с другом. Связи, основанные на совпадении, затем можно использовать для построения семантических сетей. Этот процесс включает определение ключевых слов в тексте, построение сетей совпадений и анализ сетей для поиска центральных слов и кластеров тем в сети. Это особенно полезный метод для анализа большого текста и больших данных.
Элементарная семантическая единица информации
Тезаурус — это совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp. изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.
Список источников
Наилучшей наградой за наш труд будет ваша подписка - это признание нашей работы и мотивация для дальнейших достижений.