Устное общение с машинами является одной из главных целей с момента рождения вычислительной техники. В 1968 году Артур Кларк освободил половину воображения на планете благодаря своему роману "2001: Космическая одиссея", который Стэнли Кубрик с большим успехом снял на большом экране. Вычислительная техника едва сделала первые шаги (первый микропроцессор еще не был разработан), но идея искусственного интеллекта, подобного HAL 9000, уже соблазнила поколение, которое даже не коснулось персонального компьютера.
Как обычно в подобных сценариях, до сих пор году мы далеки от повторения коммуникативных навыков, которыми HAL 9000 должен был обладать в 2001 году. Понимание человеческого языка может показаться очень простым, люди делают это каждый день, но это очень сложная задача для машин. Язык полон явлений, которые усложняют понимание:
- полисемия,
- ирония,
- сарказм,
- двойной смысл,
- множество способов сказать одно и то же, и т.д.
Ярким примером могут служить следующие два предложения:
- Фред видел самолет, когда он пролетал над Нью-Йорком.
- Фред видел поезд, когда он пролетал над Нью-Йорком.
Хотя оба предложения меняются только в одном слове, они имеют очень разные значения. Нам легко представить себе самолет, пролетающий над Нью-Йорком, но, когда мы читаем второе предложение, мы вскоре понимаем, что поезд не летит, и поэтому это означает нечто иное, например, самолет, пролетающий над Нью-Йорком с человеком внутри (потому что люди тоже не умеют не летать), который видит поезд из окна самолета. Выводы такого рода очень сложны для компьютеров, но относительно просты для людей.
Другим примером может служить следующее:
- Фред увидел пролетающий над Берном самолет.
- Фред наблюдал, как самолет взлетает над столицей Швейцарии.
Два предыдущих предложения очень похожи, хотя они реализуются очень по-разному. Представляется только, что второе предложение более точное, чем первое. Но оба значения совместимы. Компьютерная система, способная распознать, что "увидел" и "наблюдал", "самолет" и "реактивный", "полет" и "взлет" очень похожи, и что "Берна" - "столица Швейцарии", может правильно оценить, что эти два предложения являются эквивалентными.
Эти меры эквивалентности значений полезны для многих инструментов, например, известного персонального помощника Siri и та же Алиса, или для оценки голосовых команд в системе домашней автоматизации, так что дом может сделать вывод, что предложение "Мне нужно больше света" может означать "Поднять жалюзи" или "Включить свет", в зависимости от условий освещения на улице в данный момент.
Другие возможные области применения - помощь пожилым людям, поскольку в основном люди этого возраста испытывают большие трудности в обучении и использовании сложных пользовательских устройств и могут предпочесть голосовые команды, или в области обучения, где система STS способна оценить, означает ли ответ ученика то же самое, что и правильный ответ учителя, облегчая задачу учителю. STS также может помочь в машинном переводе, увеличивая вариативность переводов, генерируя предложения, написанные по-разному, но без изменения первоначального значения. Аналогичным образом, STS может помочь в решении других задач, таких как обнаружение плагиата или ответы на вопросы.
Основными целями лингвистики являются изучение значений слов, их структуры и взаимосвязи с, другими словами.
Значение - это ментальное представление объекта или концепции, то, что мы видим в нашем сознании, когда читаем или слышим определенное слово. Оценка значения является важной частью Естественной Языковой Обработки (NLP), области информатики, искусственного интеллекта и вычислительной лингвистики, с целью понимания и создания человеческого языка. Понимание естественного языка (NLU) состоит из программы, читающей текст и конструирующей из него концептуальное представление его смысла. NLU требует множества процессов, включая морфологический, синтаксический, семантический и прагматический анализ языков.
Лингвистика семантики - это изучение звуков, грамматики и смысла языков. Конечная цель в лингвистике - объяснить, почему закономерности в языках таковы, как они есть. Лингвистика пытается объяснить, почему феномены происходят в языках, используя описательный подход, и найти правила, которым люди бессознательно следуют, когда люди говорят и пишут. С другой стороны, предписывающие подходы пытаются описать, как люди должны говорить и писать и какие правила языка они должны знать.
В лингвистике семантика - это изучение значения слов, их структуры и взаимосвязи с, другими словами. Значение - это ментальное представление объекта или концепции, то, что мы видим в нашем сознании, когда видим или слышим определенное слово. Полное значение слова всегда контекстуально, и ни одно исследование значения, отделенного от контекста, нельзя воспринимать всерьез.
В целом можно выделить два типа значений: лексическое и грамматическое.
Первое - это значение всех слов, содержащих лексему: существительные, глаголы, прилагательные и некоторые наречия.
Грамматическое значение - это значение слова по отношению к его функции в предложении, такой как статьи, детерминанты, предлоги или местоимения.
Лексическая семантика - это подполе семантики, изучающее значение отдельных слов и их взаимосвязи. Другими словами, изучение Лексических единиц (также называемых синтаксическими атомами). Лексические единицы - это основные элементы лексики, словарный запас языка, и они составляют минимальные смысловые единицы. Некоторые слова могут иметь несколько различных значений. Это явление называется полисемия. Полисемия противоположна моносемии, которая имеет только одно значение на слово.
Примером полисемичного слова является «лес»:
- (в строительстве) кусок дерева.
- географическая область с большим количеством деревьев.
Когда люди читают предложения, содержащие слова подобные слова, им легко понять их смысл через контекст, используя свои знания о мире. Большинство слов являются полисемическими, и чем более полисемическим является слово, тем чаще оно используется.
Омонимия - это явление, которое часто путают с полисемией.
Одноименные слова - это слова, которые произносятся одинаково, но имеют разное значение. Эти слова могут быть написаны одинаково, а могут просто совпадать по звуку, например, "брак" (женитьба) и "брак" (поломка), или "ключ" (родник) и "ключ" (от замка).
Когда значение предложения не меняется при замене другого слова на другое, говорят, что оно является синонимом.
Антонимия противоположна синонимии. Два слова являются антонимами, если значение одного противоположно другому, как "дорогостоящие" и "дешевые". Значение имеет иерархическую структуру, а значение некоторых слов включено другими словами, в явление, называемое гиперонимия. Когда значение слова включает в себя значение другого слова, мы говорим, что первое - гипероним второго. Например, "животное" - это гипероним "кошки»
Гипонимия - это обратное явление гиперонимии. Однако, гипоним может быть гиперонимом других слов. Например, "млекопитающее" - это гипоним "животное", но гипероним "кошка".
Меронимия возникает, когда слово является частью другого слова. Например, "палец" - это мероним "руки", а "шина" - это мероним "автомобиля".
Наконец, можно сказать, что понятия, которые имеют определенное общее значение, семантически схожи. Например, слова "собака" и "кот" более семантически схожи, чем "дом" и "поезд". Но если сравнить понятия "собака" и "кот" с понятиями "машина" и "автобус", то не так ясно: "кошка" и "собака" - домашние животные, а и «машина», и "автобус" - на колесах, так что оба слова очень похожи между собой.
Измерение семантического сходства очень полезно для нескольких NLP задач, таких как поиск информации, обработка текста, машинный перевод и оценка, машинное чтение, ответы на сложные вопросы и многие другие.
Я очень надеюсь, что моя статья показалась для вас информативной и полезной. Подписывайтесь на мой канал, чтобы развиваться в стези семантического анализа текста. Это очень интересно!