На протяжении многих лет обработка естественного языка все больше фокусировалась на задачах, которые могут быть решены с помощью статистических моделей, но игнорировала социальные аспекты языка. Эти ограничения в значительной степени обусловлены исторически доступными данными и ограничениями моделей, но сузили направленность и демографически предвзятость инструментов. Однако с ростом доступности наборов данных, включая социодемографическую информацию и более выразительные (нейронные) модели, у ученых есть возможность решить обе эти проблемы.
До 1970-х годов экономическая теория предполагала, что люди принимают экономические решения с учетом своих собственных интересов и на основе всей имеющейся информации. Сочетание поведения людей открыло экономику для новых взглядов и даже создало совершенно новую область - поведенческую экономику.
До 1990-х годов НЛП в основном базировалась на применении эвристики, основанной на лингвистической теории. Однако в 1990-х годах в этой области произошла "статистическая революция". Оказалось, что статистические линейные модели оказались более надежными, точными и надежными в извлечении лингвистической информации из текста, чем лингвистическая эвристика. Это было очень полезное понимание, которое позволило решить ряд задач. Однако, как следствие, поле все больше фокусировалось на задачах, которые можно было бы решить с помощью этих моделей, и отошло от задач, которые не могли быть решены.
Этот переход к использованию уличного фонаря и отход от социальных аспектов языка повлек за собой два практических последствия: он проигнорировал целый ряд приложений, которые труднее смоделировать, и привел к перекосам в работе наших инструментов. Язык - это нечто гораздо большее, чем просто информация: язык используется людьми для общения с другими людьми, для установления общественного порядка, убеждения, развлечения и достижения целого ряда других коммуникационных целей, а также для сигнализации принадлежности к той или иной социальной группе.
Последнее наиболее очевидно среди подростков, которые начинают проявлять лингвистическую креативность, чтобы отличаться от своих родителей. Для большинства других групп этот процесс гораздо менее очевиден и часто происходит бессознательно, но все люди используют язык для обозначения своей принадлежности к различным демографическим группам: эти группы варьируются от пола до региона, социального класса, этнической принадлежности и рода занятий. Это свойство языка было использовано в NLP для предсказания этих демографических меток из текста в авторских задачах прогнозирования.
В этой статье утверждается, что недавнее изобилие демографически богатых наборов данных и сложных нейронных архитектур позволяет выйти за рамки уличных ламп и изучить эти два направления демографически обоснованных исследований. Этот сдвиг позволит создать множество новых приложений, которые сделают социально-демографические аспекты неотъемлемой частью языка. Выделяется несколько архитектур и процедур нейросетей, которые обещают достичь этих целей.
Нейронные модели социолингвистического понимания
Представительское обучение
Было доказано, что встраивание слов эффективно при решении различных NLP-задач, так как позволяет фиксировать сходства по большому количеству скрытых измерений в данных. Если язык действительно является сигналом для социально-демографических факторов, имеет смысл предположить, что эти социально-демографические факторы отражаются как скрытые измерения в непрерывных словесных представлениях.
Действительно, исследователи показали, что нейронные представления можно использовать для получения нелингвистической информации о географических вариациях, добавляя специфические представления США к общим вложениям в слова. Полученные в результате векторы отражают региональные факторы, такие как ближайшие соседи по достопримечательностям, паркам и спортивным командам.
Вместо того, чтобы разделять различные подкорпора или включать модификаторы в общие вложения слов, можно использовать неконтролируемую систему обучения модели, используя социодемографические атрибуты (если они известны) как ярлыки документов (а не уникальные идентификаторы документов). Крайне важно, что можно предоставить столько ярлыков, сколько захотим для каждого документа.
В процессе обучения скрытые характеристики этикеток документов отражаются в изученных словосочетаниях, в то время как вложения демографических этикеток отражают наиболее тесно связанные с ними слова.
В результате имеется представление о том, что такое слово, документ и уровень населения. Уникальные идентификаторы документов позволяют представлять каждый учебный экземпляр в качестве вектора. Социально-демографические ярлыки, с другой стороны, не являются уникальными, а являются общими для потенциально многих случаев.
Кроме того, можно использовать алгоритмы кластеризации на представлениях слов и документов для идентификации
- тематические структуры (при группировке по словарным представлениям)
- лингвистические корреляции (при группировке документов в группы).
Следует отметить, что описанная здесь методология ни в коей мере не ограничивается социально-демографическими факторами, а может быть применена к другим представляющим интерес переменным.
Преимущество этого метода заключается в том, что он не требует новой модели, может использоваться для решения широкого круга задач и проблем и дает результаты, поддающиеся интерпретации.
Представляется интуитивный пример этих методов на примере изучения географического распределения терминов и их способности определять более крупные диалектные регионы. Использованы те же самые процедуры предварительной обработки и моделирования, что и раньше, но в этом случае используются только регионы в качестве этикеток документа.
Кластеризация со структурой
Можно кластеризовать этикетки документов с агломеративной кластеризацией. Этот алгоритм кластеризации начинается с каждого регионального вектора в своем собственном кластере и рекурсивно объединяет пары, пока не будет достигнуто необходимое количество кластеров. Пары для слияния выбираются таким образом, чтобы свести к минимуму увеличение расстояния слияния. Хотя существуют различные измерения расстояния, наиболее часто (и эмпирически наиболее полезным) используется связь между отделениями, которая сводит к минимуму дисперсию нового кластера.
Однако, несмотря на то, что полученные решения стабильны во всех циклах (в отличие от k-средств, что является стохастическим), они предпочитают создавать новые небольшие кластеры, прежде чем разбивать большие группы.
Алгоритм может быть усовершенствован структурой, предоставив матрицу связи для точек данных (т.е. схожесть с плавающей точкой или двоичную близость), которая используется для выбора кластерных пар в процессе слияния. Такая структура позволяет нам наполнять представления дополнительными знаниями.
Использование бинарной матрицы примыкания над соседними регионами добавляет дополнительную географическую информацию к процессу кластеризации, которая раньше основывалась только на лингвистическом сходстве.
Здесь мы преобразовываем использованную ранее матрицу примыкания во внешний словарь, который содержит списки для каждого региона, непосредственно соседнего с ним. Переоснащение региональных представительств под этот словарь заставляет представления соседних регионов становиться более похожими в векторном пространстве. Поэтому модернизация позволяет нам использовать внешние географические знания, которые не могут быть закодированы в процессе обучения представительству.
Кластеризация встраиваемых областей модернизации приводит к образованию сплошных больших диалектных площадей.
Аналогичным образом, можно было бы получить словарь, в котором для каждого слова перечислены все другие слова, встречающиеся в тех же регионах. Этот второй словарь можно использовать для настройки встраивания слов по той же схеме, что и представление регионов.
Заключение
В этой статье речь идет в основном о людях, но не придается этому аспекту особого значения в НЛП. Однако с увеличением доступности богатых демографическим составом наборов данных и методов нейросетей, утверждается, что можно вновь интегрировать в наши модели социально-демографические факторы. Это позволит повысить производительность, снизить предвзятость и открыть новые приложения, особенно в диалоге, чате и интерактивных системах. Основная полезность репрезентативного обучения для качественных социально-демографических исследований и демонстрирую несколько способов, которые позволяют нам включать в репрезентации дополнительные внешние знания. В будущем необходимо лучше понимать точное влияние различных демографических факторов на наши модели и разрабатывать пути их преодоления. Состязательное обучение, многозадачное обучение, внимание и репрезентативное обучение в настоящее время выглядят как многообещающие инструменты для достижения этих целей.