Найти в Дзене
Планетные истории

Семантические кластеры и нейронные сети

Введение В традиционном методе анализа текстов на основе использования багета-слов (BoW) при моделировании коротких текстов легко встречаются проблемы разбросанности и двусмысленности данных, игнорирующие семантические отношения между словами. Вопрос о том, как получить эффективное представление о кратком тексте, активно обсуждался в ходе исследований. С целью преодоления слабости BoW исследователи предложили расширить представление короткого текста, используя скрытую смысловую нагрузку, где слова сопоставляются с распределенными представлениями Latent Dirichlet Allocation (LDA) и его расширениями. В работе Фан и др. (2008) представлена общая схема для расширения короткого и редкого текста путем добавления названий тем, обнаруженных с помощью LDA. Ян и др. (2013) представили вариант LDA, получивший название Biterm Topic Model (BTM), специально для моделирования короткого текста, чтобы облегчить проблему разрозненности. Тем не менее, рассмотренные выше методы все еще рассма
Оглавление

Введение

В традиционном методе анализа текстов на основе использования багета-слов (BoW) при моделировании коротких текстов легко встречаются проблемы разбросанности и двусмысленности данных, игнорирующие семантические отношения между словами.

Вопрос о том, как получить эффективное представление о кратком тексте, активно обсуждался в ходе исследований.

С целью преодоления слабости BoW исследователи предложили расширить представление короткого текста, используя скрытую смысловую нагрузку, где слова сопоставляются с распределенными представлениями Latent Dirichlet Allocation (LDA) и его расширениями.

В работе Фан и др. (2008) представлена общая схема для расширения короткого и редкого текста путем добавления названий тем, обнаруженных с помощью LDA.

https://pixabay.com/ru/images/search/клетка%20мозга/
https://pixabay.com/ru/images/search/клетка%20мозга/

Ян и др. (2013) представили вариант LDA, получивший название Biterm Topic Model (BTM), специально для моделирования короткого текста, чтобы облегчить проблему разрозненности. Тем не менее, рассмотренные выше методы все еще рассматривают часть текста как BoW.

Поэтому они не эффективны в сборе тонкой семантической информации для моделирования коротких текстов.

В последнее время большое внимание уделяется методам, связанным с нейронными сетями, включая изучение встраивания слов и выполнение семантической композиции для получения представления на уровне фраз или предложений.

Для изучения процесса встраивания слова целью обучения непрерывной модели Skip-gram является прогнозирование ее контекста.

Таким образом, информация о повторяемости может быть эффективно использована для описания слова, и каждый компонент встраивания слова может иметь семантическую или грамматическую интерпретацию.

Приведенные выше примеры показывают, что зачастую состав добавки может давать значимые результаты.

В уравнении токен "Берлин" можно видеть, что он имеет встроенный вектор смещения (Capital) в токен "Германия" в пространствах встраивания. Кроме того, встроенные смещения представляют собой синтаксические и семантические отношения между словами.

В данной статье мы предлагаем метод моделирования коротких текстов с использованием семантической кластеризации и свернутой нейронной сети (CNN).

Во-первых, алгоритм быстрой групповой работы, основанный на поиске пиков плотности, используется для кластеризации вложений слов и обнаружения семантических кликов.

Затем производится семантическая композиция по n-граммовым вложениям, чтобы выявить появляющиеся в коротких текстах потенциальные семантические единицы.

В качестве семантических матриц, которые используются в качестве исходных данных для Си-Эн-Эн, в противном случае отсев происходит по той части УП, которая соответствует заданному порогу. На этом этапе в качестве надзорной информации используются семантические клики, что гарантирует возможность извлечения значимых

Мотивация нашей работы заключается во внедрении дополнительных знаний путем встраивания заранее подготовленных слов и полного использования контекстуальной информации коротких текстов для улучшения их представления.

К числу основных вкладов относятся следующие:

  1. Семантические клики обнаруживаются с помощью метода быстрой кластеризации на основе пиков плотности поиска;
  2. Для точной настройки многоуровневых SU используются семантические клики для наблюдения на этапе отбора.

Связанные работы

https://pixabay.com/ru/photos/знания-spark-flash-стороны-думать-3914811/
https://pixabay.com/ru/photos/знания-spark-flash-стороны-думать-3914811/

Традиционные методы, основанные на статистике, как правило, не достигают удовлетворительных результатов при классификации коротких текстов из-за разброса их представления.

Основываясь на внешнем корпусе Википедии, Фан и др. предложили метод обнаружения скрытых тем с помощью LDA и расширения коротких текстов.

В работе Чен и др, показано, что использование тем с множественной детализацией позволяет более точно моделировать короткие тексты.

Для моделирования языков использовались нейронные сети, и встраивание слов можно изучать одновременно.

Миколов и др. представили непрерывную модель Skip-gram, которая является эффективным методом для изучения высококачественных встраиваемых слов из крупномасштабных неструктурированных текстовых данных.

В последнее время появились в открытом доступе различные заранее подготовленные варианты встраивания слов, и для стимулирования семантического представления текстов предлагается использовать множество методов, основанных на композиционном подходе.

В работе Ле и Миколова представлен алгоритм "Вектор параграфа" для изучения представления документа в фиксированном формате.

Калхбреннер и др. представили динамическую сводную нейронную сеть (DCNN) для моделирования предложений.

С их работой тесно связана наша работа в том, что k-max-объединение используется для захвата глобального функционального вектора и не зависит от разбора информации.

Ким предложил простое усовершенствование сложной архитектуры, заключающееся в использовании двух входных каналов для одновременного использования встраивания специфичных для задач и статических слов.

Зенг и др. разработали глубокую спиральную нейронную сеть (ДНС) для извлечения лексических особенностей и особенностей уровня предложений, которые объединены и введены в классификатор программ.

Сохер и др. предложили рекурсивные нейронные сети (RNN), которые доказали свою эффективность в построении представлений предложений.

Для того чтобы уменьшить переоснащение нейронных сетей, специально обученных работе с небольшими массивами данных, Хинтон и др. использовали случайный отсев для предотвращения сложных совместных адаптаций.

С целью использования более структурированной информации о тексте, основанной на CNN и прямом внедрении небольших текстовых областей, был предложен альтернативный механизм для эффективного использования порядка слов для классификации текста.

Хотя популярные методы могут охватывать информацию высокого порядка и словосочетания для получения сложных характеристик, они не могут гарантировать эффективность классификации для очень коротких текстов.

В этой статье мы разрабатываем метод использования более контекстной информации для классификации коротких текстов с помощью семантической кластеризации и CNN.

-3