Найти тему
Умный Я

Анализ лингвистической репрезентативности семантических моделей распределения на лексическом уровне

Человеческий язык, пожалуй, является одним из самых сложных и уникальных явлений в мире. Несмотря на то, что первая языковая система появилась примерно 1,8 миллиона лет назад, первые обширные научные исследования языков начались только в 18 веке.

С тех пор был достигнут значительный прогресс в таких областях, как морфология, синтаксис и фонетика. В настоящее время языковые исследования предлагают целый ряд более или менее четких теорий о том, как работают эти уровни языка. Однако то же самое трудно сказать и о семантике, изучении смысла лингвистического знака. Она поднимает много вопросов и выдвигает ряд спорных теорий.

https://pixabay.com/ru/photos/%D0%B4%D0%B5%D0%B2%D0%BE%D1%87%D0%BA%D0%B0-%D0%B0%D0%BD%D0%B3%D0%BB%D0%B8%D0%B9%D1%81%D0%BA%D0%B8-%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C-2771936/
https://pixabay.com/ru/photos/%D0%B4%D0%B5%D0%B2%D0%BE%D1%87%D0%BA%D0%B0-%D0%B0%D0%BD%D0%B3%D0%BB%D0%B8%D0%B9%D1%81%D0%BA%D0%B8-%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C-2771936/

Данная статья также направлена на разъяснение одного из вопросов современных семантических исследований. Этот вопрос связан с пониманием механизмов, лежащих в основе наименьших единиц смысла, которыми являются слова.

В частности, одной из основных исследовательских задач изучения семантики слова, лексической семантики, является создание формальной модели понятия слова и его взаимодействия с другими языковыми единицами.

Такие формальные модели могут быть использованы для объяснения того, что означают слова и как сложные языковые единицы (такие как предложения) приобретают свое значение через учредительные слова.

Среди всех остальных теорий наибольшей популярностью дистрибутив сегодня пользуется благодаря своей эффективности: достаточно взять корпус текстов, а программное обеспечение автоматически подсчитывает контекст и строит представления слов.

Эти представления могут быть использованы для определения "семантической дистанции" между словами (например, степень сходства между словами котенка и кота может составлять, 0,9 по непрерывной шкале от 0 до 1, а степень сходства между словами котенка и крокодила должна быть 0,4), для нахождения синонимов данного слова, для выполнения арифметических операций над словами (например, кот плюс малыш должен равняться котенок).

https://pixabay.com/ru/illustrations/%D0%BE%D1%82%D0%BF%D1%80%D0%B0%D0%B2%D0%B8%D1%82%D1%8C-%D0%BF%D0%BE-%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9-%D0%BF%D0%BE%D1%87%D1%82%D0%B5-824310/
https://pixabay.com/ru/illustrations/%D0%BE%D1%82%D0%BF%D1%80%D0%B0%D0%B2%D0%B8%D1%82%D1%8C-%D0%BF%D0%BE-%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9-%D0%BF%D0%BE%D1%87%D1%82%D0%B5-824310/

С этой целью относительно легко можно решить различные задачи вниз по течению, например, определить настроение предложения, выяснить, являются ли два высказывания перефразированными или нет, извлечь тему из данного документа и т.д.

Поэтому неудивительно, что многие современные системы обработки естественного языка опираются на теорию распределений. Проблема заключается в том, что недавний успех гипотезы распределения заставил ученых забыть, что корни гипотезы распределения прочно укоренились в языковых традициях.

Стало даже предполагаться, что проблема моделирования смысла уже решена. Однако, как было отмечено в ряде исследований, таких как BellandSchäfer, семантика распределения также имеет ряд ограничений (например, неясность типа семантических отношений, проблема с геометрической организацией пространства представления и так далее).

Я полагаю, однако, что основная проблема теории распределения связана с ее лингвистической мотивацией и интерпретацией смысла слов. Я полагаю, что эффективность распределительных семантических моделей в определенных нижестоящих задачах не означает, что эти модели действительно репрезентативны для языка.

Другими словами, нельзя было сделать вывод, что распределительная семантика действительно отражает то, как смысл на самом деле работает на языке, не опираясь на лингвистические теории, а лишь на баллы за эффективность.

Способность правильно фиксировать механизмы лексической семантики я назову здесь и далее в этой диссертации зонтичным термином лингвистическая репрезентативность на лексическом уровне.

При обсуждении такого непонятного объекта как слово, необходимо дать правильное определение этому объекту. Поскольку формальное определение слова относится к философии языка и выходит за рамки цели данного тезиса, для удобства я полагаюсь на определение, которое ставит понятие слова как языковой структуры, требующей выполнения трех следующих условий:

1. Слово имеет набор символов, связанных с ним, и отделено пробельными буквами от других слов (языки, не имеющие письменной традиции или белых пространств в письменных системах, опущены).

2. Слово имеет набор фонем, связанных с ним, и может быть выражено в отрыве от других фонем.

3. Слово имеет унитарное значение, которое нельзя разделить на несколько составляющих.

-3

В ряде исследований уже сообщалось, что модели распределения в большинстве случаев носят целевой характер: отсутствует набор параметров и гиперпараметров, позволяющих одной модели распределения превосходить другие по широкому спектру задач ниже по течению. Таким образом, одна дистрибутивная семантическая модель может иметь наилучшую производительность по определенным задачам, но не по всем из них.

Но если дистрибутивная семантика действительно репрезентативна для языка, то разумно предположить, что должна существовать модель, которая может иметь наилучшую производительность по всем задачам.