В последнее время был достигнут значительный прогресс в обучении плотно связанных, направленных сетей со многими скрытыми слоями.
Полученные в результате сети глубоких убеждений учат иерархии нелинейных детекторов признаков, которые могут фиксировать сложные статистические модели в данных. Алгоритм тренировки сети глубокой убежденности, инициализирует вес каждого слоя в отдельности в совершенно неконтролируемом виде, а затем настраивает всю сеть с помощью помеченных данных.
- Этот полунаблюдаемый подход с использованием глубоких моделей доказал свою эффективность в ряде приложений, включая кодирование для данных речи, аудио, текста и изображений. Эти достижения вызвали интерес к акустическим моделям, основанным на предварительно обученных нейронных сетях и других методах глубокого изучения ASR.
Например, контекстно-независимые, предварительно подготовленные, глубокие нейросетевые гибридные архитектуры HMMM недавно были предложены для распознавания и достигли очень конкурентоспособной производительности. Использование предварительной подготовки для инициализации весов глубокой нейронной сети имеет два основных потенциала.
Представленые данные, согласуются с подходом к предварительному обучению как к специфическому виду регуляризатора, зависящего от данных, влияние которого на ошибку обобщения не уменьшается с увеличением объема данных, даже если набор данных настолько велик, что случаи обучения никогда не повторяются. Эффект регуляризации за счет использования информации при распределении вводимых ресурсов может позволить обучать модели с высокой степенью экспрессии сравнительно небольшому количеству маркированных данных.
- Кроме того, и другие также сообщили об экспериментальных данных, согласующихся с предварительным обучением, способствующим последующей оптимизации, обычно выполняемой стохастическим градиентным спуском. Таким образом, заранее подготовленные нейронные сети часто также достигают более низкой ошибки обучения, чем нейронные сети, которые не прошли предварительную подготовку. Эти эффекты особенно ярко выражены в глубоких автокодерах.
Глубокая убежденность в том, что сетевая предварительная подготовка является широко изучаемым методом предварительной подготовки. После того, как показало, что глубокие автокодеры могут быть эффективно обучены с использованием глубокого разряда сетей предварительного обучения, возродился интерес к использованию более глубоких нейронных сетей для приложений.
- Хотя в некоторых случаях обучение без предварительной подготовки может быть проведено с меньшим количеством патологических глубоких архитектур, чем обучение глубоких автокодеров, для многих проблем и архитектур моделей исследователи сообщили, что предварительная подготовка является полезной.
Рассматриваются различные неконтролируемые методы предварительной подготовки как удобные и надежные способы обучения нейросетей со многими скрытыми слоями, которые обычно полезны, редко причиняют вред, а иногда и необходимы.
Описанная контекстно-зависимая DNN-HMM модель для LVSR, которая дает значительно лучшие результаты, чем сильные, дискриминационно подготовленные базовые показатели CD-GMMM-HMM на базе массива данных бизнес-поиска, расширяющего масштабы бизнеса. Хотя наши эксперименты показывают, что CD-DNN-HMM обеспечивают значительное повышение точности распознавания, обучение CD-DNN-HMM достаточно дорогостоящее по сравнению с обучением CD-GMM-HMM.
Это в первую очередь потому, что алгоритмы обучения CD-DNN-HMM, о которых мы говорили выше, нелегко распараллелить между компьютерами и их нужно выполнять на одной GPU машине. Тем не менее, декодирование в CD-DNN-HMMs очень распространено на сайте CD-DNN-HMMs, поэтому время тестирования не является проблемой в реальных приложениях.
- Работа над CD-DNN-HMMs - это только шаг на пути к более мощной акустической модели для LVSR; многие вопросы еще предстоит решить.
Вот несколько из них, которые считаются особенно важными.
- Во-первых, хотя обучение CD-DNN-HMM асимптотически достаточно масштабируемо, на практике обучение CD-DNN-HMM на десятки тысяч часов работы с данными сопряжено с большими трудностями. Для достижения такого уровня практической масштабируемости необходимо параллелизировать обучение не только на уровне матричной арифметики. Поиск новых способов распараллеливания обучения может потребовать более глубокого теоретического осмысления глубокого обучения.
- Во-вторых, мы должны использовать высокоэффективные алгоритмы адаптации громкоговорителей и окружения для DNN-HMM, в идеале полностью безнадзорные и интегрированные с предтренировочной фазой обучения. Вдохновение для таких алгоритмов может быть получено из литературы ANN-HMM или многих успешных методик адаптации, разработанных в последние десятилетия для GMM-HMM, совместная компенсация искажений, переменный параметр HMMMs.
- В-третьих, при обучении в данном исследовании использовался встроенный алгоритм Viterbi, который не является оптимальным. Считается, что дополнительные улучшения могут быть достигнуты за счет оптимизации объективной функции, основанной на полной последовательности, как уже с некоторым успехом продемонстрировали в наборе данных TIMIT.
Кроме того, рассматрен временной аспект речи DNN-HMM и GMM-HMMMs как очень грубый способ работы со сложными временными свойствами речи. Недостатки того, как HMMMs справляются с временным ослаблением речевых входов, были подробно проанализированы в работе.
Существует обширное пространство для исследования в глубокой учебной работе с использованием знаний, полученных в результате моделирования родов, ориентированных на время, в нейронных сетях и речи. Наконец, хотя Gaussian RBMs могут изучить первоначальное распределенное представление их вклада, они все еще производят диагональную ковариацию Gaussa для условного распределения по входному пространству с учетом скрытого состояния.
Поэтому рассматривается применение аналогичных моделей к LVSR как заманчивая область будущей работы.