Найти тему

Улучшение понимания языка путем генеративной предварительной подготовки.

Оглавление

Понимание естественного языка включает в себя широкий спектр разнообразных задач, таких как текстовое влечение, ответы на вопросы, оценка семантического сходства и классификация документов.

Несмотря на наличие большого количества немаркированных текстовых корпусов, для изучения этих конкретных задач не хватает данных, что затрудняет адекватную работу моделей, прошедших специальную подготовку по вопросам дискриминации.

В статье демонстрируется, что большие успехи в решении этих задач могут быть достигнуты за счет генеративной предварительной подготовки языковой модели на основе разнообразного набора немаркированных текстов с последующей дискриминационной доработкой каждой конкретной задачи.

https://pixabay.com/ru/illustrations/вопросы-студенты-ребенка-мальчик-4444458/
https://pixabay.com/ru/illustrations/вопросы-студенты-ребенка-мальчик-4444458/

Способности к обучению.

Способность эффективно учиться на исходном тексте имеет решающее значение для уменьшения зависимости от контролируемого обучения в области обработки естественного языка (NLP).

Большинство методов глубокого изучения требуют значительного объема данных, помеченных вручную, что ограничивает их применимость во многих областях, страдающих от недостатка аннотированных ресурсов.

В таких ситуациях модели, которые могут использовать лингвистическую информацию из немаркированных данных, представляют собой ценную альтернативу сбору большего количества аннотаций, что может занимать много времени и быть дорогостоящим.

Кроме того, даже в тех случаях, когда доступен значительный надзор, обучение хорошему представлению в неконтролируемом режиме может обеспечить значительное повышение производительности.

Наиболее убедительным доказательством этого на сегодняшний день является широкое использование предварительно подготовленных текстовых вставок для повышения производительности по целому ряду задач НЛП.

Однако использование информации не только на словарном уровне из немаркированного текста представляет собой сложную задачу по двум основным причинам.

Полунаблюдаемое обучение для НЛП.

Эта работа в целом попадает под категорию полунаблюдаемого обучения естественному языку.

Эта парадигма вызвала значительный интерес в применении к таким задачам, как маркировка последовательности или текстовая классификация.

В самых ранних подходах для расчета статистики на словарном или фразовом уровне использовались немаркированные данные, которые затем были использованы в качестве характеристик контролируемой модели.

За последние несколько лет исследователи продемонстрировали преимущества использования встраивания слов, которые обучаются на немаркированных корпусах, для повышения производительности по целому ряду задач.

Эти подходы, однако, в основном переносят информацию на словарный уровень, в то время как мы стремимся отразить семантику более высокого уровня.

https://pixabay.com/ru/illustrations/искусственный-интеллект-робот-ai-ки-4417279/
https://pixabay.com/ru/illustrations/искусственный-интеллект-робот-ai-ки-4417279/

Неконтролируемое предварительное обучение.

Неконтролируемое предварительное обучение - это особый случай полуконтролируемого обучения, целью которого является нахождение хорошей точки инициализации, а не изменение задачи обучения под наблюдением.

В ранних работах изучалось использование методики в классификации изображений и регрессионных задачах.

Последующие исследования показали, что предварительная подготовка действует как схема регуляризации, позволяя лучше обобщать данные в глубоких нейронных сетях.

В недавней работе метод использовался для обучения глубоких нейронных сетей различным задачам, таким как классификация изображений, распознавание речи, дезинфекция объектов и машинный перевод .

Вспомогательные цели обучения.

Добавление вспомогательных целей обучения без надзора является альтернативной формой полунаблюдаемого обучения.

Ранние работы Коллоберта и Вестона использовали широкий спектр вспомогательных задач NLP, таких как POS-маркировка, обрезка, распознавание именованных объектов и моделирование языка для улучшения семантической маркировки ролей.

Совсем недавно Rei добавила задачу моделирования вспомогательного языка к своей целевой задаче и продемонстрировала прирост производительности при выполнении задач последовательной маркировки.

Эти эксперименты также используют вспомогательную цель, но, как показано здесь, неконтролируемая предварительная подготовка уже учит нескольким языковым аспектам, имеющим отношение к поставленным задачам.

Структура

Данная процедура обучения состоит из двух этапов.

  1. Первым этапом является изучение языковой модели с высокой пропускной способностью на большом массиве текста.
  2. Затем следует этап точной настройки, на котором адаптируется модель к дискриминационной задаче с маркировкой данных.

Преобразования входных данных по конкретным задачам.

Для некоторых задач, таких как классификация текста, можно непосредственно отрегулировать данную модель, как описано выше.

Некоторые другие задачи, такие как ответы на вопросы или текстовые подсказки, имеют структурированные входные данные, такие как упорядоченные пары предложений или тройняшки документов, вопросов и ответов.

Поскольку предварительно подготовленная модель была подготовлена на основе последовательностей текста, есть нужда в некоторых модификациях, чтобы применить ее к этим задачам.

В предыдущей статье поверх переданных представлений предлагались специальные архитектуры для обучения.

Такой подход вновь вводит значительное количество специфических настроек для решения конкретных задач и не использует передачу знаний для этих дополнительных архитектурных компонентов.

Был объединен контекст документа и вопрос с каждым возможным ответом, добавлен разделительный маркер между ними для получения.

Каждая из этих последовательностей обрабатывается нашей моделью независимо друг от друга, а затем нормализуется слоем softmax для получения распределения результатов по возможным ответам.

Использование неконтролируемого (предварительного) обучения для повышения производительности при выполнении дискриминационных задач уже давно является важной целью исследований в области машинного обучения.

Эта статья показывает, что достижение значительного повышения производительности действительно возможно, и дает намек на то, какие модели (трансформаторы) и наборы данных (текст с длинными зависимостями) лучше всего работают с этим подходом.

Есть надежда , что это позволит провести новые исследования в области неконтролируемого обучения, как для понимания естественных языков, так и для других областей, что будет способствовать дальнейшему улучшению нашего понимания того, как и когда обучение проходит без надзора.