Архитектура модели с учетом задач.
Понимание естественного языка включает в себя широкий спектр разнообразных задач, таких как текстовое влечение, ответы на вопросы, оценка семантического сходства и классификация документов.
Несмотря на наличие большого количества немаркированных крупных текстовых корпусов, маркированных данных для изучения этих конкретных задач недостаточно, что затрудняет адекватное выполнение дискриминационно подготовленных моделей.
Однако использование информации не только на словарном уровне из немаркированного текста представляет собой сложную задачу по двум основным причинам.
- Во-первых, неясно, какие типы задач оптимизации наиболее эффективны при изучении текстовых представлений, пригодных для переноса.
В недавних исследованиях рассматривались различные задачи, такие как моделирование языка, машинный перевод и согласованность дискурса , при этом каждый метод превосходит другие по различным задачам.
- Во-вторых, отсутствует консенсус в отношении наиболее эффективного способа переноса полученных представлений на целевую задачу.
Существующие методики включают в себя сочетание внесения изменений в архитектуру модели с учетом конкретных задач, использование сложных схем обучения и добавление дополнительных целей обучения .
Эта неопределенность затрудняет разработку эффективных полунаблюдаемых подходов к изучению языка.
Эксперименты.
Настройка неконтролируемой предварительной подготовки .
В опыте используется набор данных BooksCorpus для обучения языковой модели.
Он содержит более 7000 уникальных неопубликованных книг различных жанров, включая "Приключения", "Фантазии" и "Романтика".
Крайне важно, что он содержит длинные отрезки сопредельного текста, что позволяет генеративной модели научиться обусловливать информацию на большом расстоянии.
Альтернативный набор данных, 1B Worbut перемешивается на уровне предложений, разрушая структуру дальнего радиуса действия.
Эта языковая модель достигает очень низкого токенового уровня недоумения в 18,4 на этом корпусе.
Характеристики модели.
Данная модель в значительной степени повторяет оригинальную конструкцию трансформатора.
Обучили трансформатор, состоящий только из 12 слоёв декодера, с маскированными головками самообслуживания (768 размерных состояний и 12 головок внимания).
Для сетей прямой передачи данных в позиционном направлении использовали 3072 размерных внутренних состояния.
В опыте использовали схему оптимизации Адама с максимальной скоростью обучения 2,5e-4,d ,Бенчмарк, которая используется аналогичным подходом, ELMо является точной настройкой деталей.
Если не указано иное, повторно используются гиперпараметрические настройки из неподконтрольной предварительной подготовки.
Добавляется отсев в классификатор с коэффициентом 0,1.
Для большинства задач используется скорость обучения 25e-5 и размер пакета 32.
Этой модели было достаточно быстрой тонкой настройки и эпохи тренировок для большинства случаев.
Тут используют линейный график снижения скорости обучения с разогревом более 0,2% тренировки.
Задача умозаключения естественным языком (NLI), также известная как распознавание текстового влечения, включает чтение пары предложений и оценку взаимосвязи между ними по одному из признаков влечения, противоречия или нейтральности.
Несмотря на большой интерес, задача остается сложной из-за наличия широкого спектра таких явлений, как лексическое влечение, кореференция, лексическая и синтаксическая двусмысленность.
Оцениваются пять наборов данных с различными источниками, включая изображения (SNLI), расшифровку речи, популярную художественную литературу и правительственные отчеты (MNLI), статьи в Википедии (QNLI), научные экзамены (SciTail) или новостные статьи (RTE).
Выводы.
Внедрена система для достижения глубокого понимания естественного языка с помощью единой диагностической модели, основанной на выполнении одной задачи - предварительной подготовки и дискриминационной тонкой настройки до начала тренинга.
Предварительно обучаясь на разнообразном корпусе с длинными отрезками сопредельного текста, наша модель приобретает значительные мировые знания и способность обрабатывать долгосрочные зависимости.
Которые затем успешно передаются для решения дискриминационных задач, таких как ответы на вопросы, оценка семантического сходства, определение влечения и классификация текста, улучшая состояние 9 из 12 изученных нами наборов данных.
Есть надежда, что это поможет сделать возможным новые исследования в области неконтролируемого обучения, как для понимания естественного языка, так и в других областях, дальнейшее улучшение нашего понимания того, как и когда обучение без надзора работает.