1 подписчик

BowTie - глубокая обучающая нейронная сеть для анализа настроений

24 октября 201924 окт 2019

4 мин

Как моделировать и кодировать семантику написанного человеком текста и выбрать тип нейронной сети для его обработки, являются не решенными вопросами в сентиментальном анализе. Точность и возможность передачи данных являются критическими вопросами в машинном обучении в целом. Эти свойства тесно связаны с оценкой убытков для обученной модели. В статье представлена вычислительно эффективная и точная нейронная сеть прямого питания для предсказания настроений, способная поддерживать низкие потери. В сочетании с эффективной семантической моделью текста, она обеспечивает высокоточные модели с небольшими потерями. Результаты экспериментов с репрезентативными контрольными наборами данных и сравнений с другими методами показывают преимущества нового подхода. Суть вопроса

При подходе к проблеме применения глубокого познания к анализу настроений возникает как минимум пять классов вопросов, которые необходимо решить: Во-первых, как лучше всего закодировать семантику в тексте на естественном языке,

Оглавление

Суть вопроса
Заключение

Точность и возможность передачи данных являются критическими вопросами в машинном обучении в целом.

Эти свойства тесно связаны с оценкой убытков для обученной модели. В статье представлена вычислительно эффективная и точная нейронная сеть прямого питания для предсказания настроений, способная поддерживать низкие потери. В сочетании с эффективной семантической моделью текста, она обеспечивает высокоточные модели с небольшими потерями.

Результаты экспериментов с репрезентативными контрольными наборами данных и сравнений с другими методами показывают преимущества нового подхода.

Суть вопроса

При подходе к проблеме применения глубокого познания к анализу настроений возникает как минимум пять классов вопросов, которые необходимо решить:

Во-первых, как лучше всего закодировать семантику в тексте на естественном языке, чтобы полученное цифровое представление хорошо отражало семантику целиком и надежно и эффективно обрабатывалось нейронной сетью и приводило к созданию высокоточной модели?

Это критически важный вопрос в машинном обучении, поскольку он напрямую влияет на жизнеспособность выбранного подхода.

Существует множество способов кодирования предложений или текста с использованием нейросетей, начиная от простого кодирования, основанного на рассмотрении слов как атомных единиц, представленных их рангом в словаре, и заканчивая использованием встраивания слов или распределенного представления слов и встраиванием предложений.

Каждый из этих типов кодирования имеет разную сложность и степень успешности при применении к различным задачам.

Простой метод кодирования обеспечивает простоту и надежность. Полезность встраивания слов установлена в нескольких областях применения, но остается открытым вопрос, насколько лучше, чем простое кодирование для получения всей семантики текста в процессе обработки естественным языком (NLP), чтобы обеспечить более высокую точность прогнозирования при анализе настроений.

Хотя интуитивно понятно, что, поскольку встраиваемые слова действительно отражают некоторые из семантических моментов, содержащихся в тексте, это должно помочь, имеющиеся эмпирические данные испытаний не являются убедительными.

Попытки использовать встраивание предложений оказались еще менее успешными.

Во-вторых, при заданной кодировке, какую нейронную сеть следует использовать? Некоторые специфические области применения машинного обучения имеют признанную лидирующую сеть.

Например, в компьютерном зрении предпочтение отдается свернутым нейронным сетям. Однако, из-за нескольких различных типов кодирования слов и предложений в естественной языковой обработке (NLP), существует множество вариантов для архитектур нейросетей, от исходных до конволюционных и повторяющихся нейросетей.

В-третьих, какой набор данных следует использовать для обучения? Во всех случаях размер набора учебных данных очень важен для качества обучения, но способ построения набора данных и объем включаемых в него метаданных также играет определенную роль. Например, Keras IMDB Movie Review Dataset (KID) для классификации настроений содержит обзоры фильмов, написанные человеком.

Более крупным массивом данных аналогичного типа является "Стэнфордская база данных по обзору крупных фильмов" (СЛМРД).

Как правило, более простые кодировки и модели, подготовленные на больших объемах данных, имеют тенденцию превосходить сложные системы, подготовленные на меньших массивах данных.

В-четвертых, какая процедура обучения должна применяться - контролируемая или неконтролируемая?

Традиционно системы НЛП обучаются на крупных неконтролируемых корпорациях, а затем применяются на новых данных. Однако исследователи смогли использовать преимущества контролируемого обучения и переноса обученных моделей на новые данные, сохранив точность переноса.

В-пятых, при обучении модели для переноса в другие наборы данных, каковы характеристики модели, гарантирующие поддержание высокой/сопоставимой точности переноса в новом наборе данных?

Безусловно, важны точность обучения и валидации, но также важны и потери в обучении и валидации. Некоторые исследователи утверждают, что метод градиентного спуска имеет неявное отклонение, которое еще не полностью понятно, особенно в тех случаях, когда существует несколько решений, которые должным образом классифицируют данный набор данных.

Заключение

Таким образом, для тренированной модели важно иметь нейронную сеть с низкой оценкой потерь, чтобы надеяться на хорошую и надежную точность передачи.

Основная цель данной статьи состоит в том, чтобы пролить свет на то, как решать эти вопросы на практике. Для этого была представлена новая передовая нейронная сеть BowTie для анализа настроений и опыт ее использования практикуется с двумя различными типами кодирования слов: простой, основанный на ранжировании слов в словаре набора данных; другой, разумно дополненный мета-данными, связанными с полярностью слов.

Спасибо за внимание.