Найти в Дзене

Спектральный анализ речи

Спектральный анализ позволяет представить речевой сигнал в виде визуального изображения — спектрограммы, где отражено распределение акустической энергии по частотам во времени. Этот метод, ранее доступный лишь в специализированных лабораториях, сегодня реализован в бесплатных программных инструментах и становится востребованным за пределами узкой фонетики: в логопедии, медицине, судебной экспертизе, разработке речевых технологий. Более подробная статья Акустическая фонетика: «Спектральный анализ речи: от теории к цифровым инструментам» расположена в этой подборке. Речь представляет собой колебания воздуха, возникающие при взаимодействии источника звука (вибрации голосовых складок или шума при прохождении воздуха через сужение) и резонирующей системы (полости рта, глотки, носа). Спектрограмма отображает результат этого взаимодействия в трёх измерениях: время (горизонтальная ось), частота (вертикальная ось), интенсивность энергии (цвет или яркость). Для гласных характерно появление гориз
Оглавление

Спектральный анализ позволяет представить речевой сигнал в виде визуального изображения — спектрограммы, где отражено распределение акустической энергии по частотам во времени. Этот метод, ранее доступный лишь в специализированных лабораториях, сегодня реализован в бесплатных программных инструментах и становится востребованным за пределами узкой фонетики: в логопедии, медицине, судебной экспертизе, разработке речевых технологий. Более подробная статья Акустическая фонетика: «Спектральный анализ речи: от теории к цифровым инструментам» расположена в этой подборке.

Что показывает спектрограмма

Речь представляет собой колебания воздуха, возникающие при взаимодействии источника звука (вибрации голосовых складок или шума при прохождении воздуха через сужение) и резонирующей системы (полости рта, глотки, носа). Спектрограмма отображает результат этого взаимодействия в трёх измерениях: время (горизонтальная ось), частота (вертикальная ось), интенсивность энергии (цвет или яркость).

Рис. 1. Модель «источник-фильтр»: как артикуляция превращается в акустический сигнал. Источник (голосовые складки) генерирует периодический сигнал, который фильтруется конфигурацией речевого тракта, формируя характерные форманты.
Рис. 1. Модель «источник-фильтр»: как артикуляция превращается в акустический сигнал. Источник (голосовые складки) генерирует периодический сигнал, который фильтруется конфигурацией речевого тракта, формируя характерные форманты.

Для гласных характерно появление горизонтальных тёмных полос — формант, соответствующих резонансным частотам вокального тракта. Их положение определяется конфигурацией речевого аппарата- рисунок 2:

Рис. 2. Формантная структура гласных русского языка. Высота первой форманты (F1) коррелирует с положением языка: низкая у [и] (300 Гц), чуть выше у [у]- 350 и высокая у [а] (750 Гц). Высота второй форманты (F2) отражает передне-заднюю позицию: высокая у [и] (2300 Гц), 1250 у [а] и низкая у [у] (800 Гц).
Рис. 2. Формантная структура гласных русского языка. Высота первой форманты (F1) коррелирует с положением языка: низкая у [и] (300 Гц), чуть выше у [у]- 350 и высокая у [а] (750 Гц). Высота второй форманты (F2) отражает передне-заднюю позицию: высокая у [и] (2300 Гц), 1250 у [а] и низкая у [у] (800 Гц).

  • Первая форманта (F1) обратно коррелирует с высотой языка: чем выше язык, тем ниже F1.
  • Вторая форманта (F2) отражает передне-заднюю позицию языка: передние гласные имеют более высокую F2.

Например, для русского гласного [а] типичны значения F1 ≈ 750 Гц, F2 ≈ 1250 Гц; для [и] — F1 ≈ 300 Гц, F2 ≈ 2300 Гц; для [у] — F1 ≈ 350 Гц, F2 ≈ 800 Гц (Бондарко, 2005). Эти различия обусловлены анатомией артикуляции и сохраняются у всех носителей языка независимо от тембра голоса.

Компромисс разрешения: техническое ограничение метода

Качество спектрограммы зависит от ширины анализирующего окна — временного отрезка, к которому применяется преобразование Фурье. Здесь возникает фундаментальный компромисс:

  • Узкое окно (3–10 мс) обеспечивает высокое временное разрешение: позволяет точно локализовать короткие события (взрыв согласного, начало звука), но размывает форманты.
  • Широкое окно (40–100 мс) даёт чёткое разделение частотных компонент, но «размазывает» быстрые переходы во времени.
Рис. 3. Компромисс разрешения: широкополосная спектрограмма (3 мс, т.е . узкое окно) показывает временные детали, но размывает форманты; узкополосная (40 мс, т.е. широкое окно) даёт точные измерения частот, но теряет динамику. Выбор зависит от цели анализа.
Рис. 3. Компромисс разрешения: широкополосная спектрограмма (3 мс, т.е . узкое окно) показывает временные детали, но размывает форманты; узкополосная (40 мс, т.е. широкое окно) даёт точные измерения частот, но теряет динамику. Выбор зависит от цели анализа.

Выбор параметров определяется исследовательской задачей. Для анализа длительности сегментов и динамики переходов предпочтительны широкополосные спектрограммы; для измерения формантных частот — узкополосные (Johnson, 2012).

Практическое значение метода

Спектральный анализ выходит за рамки теоретической лингвистики и применяется в ряде практических областей.

В клинической практике количественные акустические метрики дополняют субъективную оценку врача. Гармонико-шумовое отношение (HNR), джиттер (вариативность основного тона) и шиммер (вариативность амплитуды) позволяют объективно оценить степень дисфонии и отследить динамику восстановления голоса после лечения (Kent & Read, 2002). Ниже на рисунке 4 приведен пример объективной диагностики дисфонии.

Рис. 4. Спектрограммы нормального голоса и дисфонии: при патологии гармонические компоненты размыты, а шумовой фон усилен, что отражается в снижении гармонико-шумового отношения (HNR) с ~18 дБ до ~8 дБ.
Рис. 4. Спектрограммы нормального голоса и дисфонии: при патологии гармонические компоненты размыты, а шумовой фон усилен, что отражается в снижении гармонико-шумового отношения (HNR) с ~18 дБ до ~8 дБ.

В логопедии спектрограммы помогают визуализировать артикуляторные дефекты. Например, при ринолалии наблюдается аномальное снижение частоты первой форманты из-за избыточного носового резонанса; при нарушении произношения шипящих — смещение энергии в низкочастотную область вместо характерного диапазона 2000–4000 Гц.

В разработке речевых технологий понимание акустических коррелятов артикуляции (например, повышение F2 и F3 при палатализации согласных в русском языке) позволяет улучшить алгоритмы распознавания и синтеза речи для славянских языков.

Доступность инструментов

Современные программы делают спектральный анализ доступным без специальной подготовки. Бесплатная среда Praat (Boersma & Weenink, 2024) предоставляет интуитивный интерфейс для визуализации спектрограмм и измерения формант. Для автоматизированного анализа корпусных данных применяются библиотеки Python (Librosa, Parselmouth), позволяющие обрабатывать сотни записей по единым параметрам.

Даже без программирования можно использовать онлайн-сервисы, преобразующие аудиозапись в спектрограмму за несколько секунд. Это открывает возможность для педагогов — демонстрировать ученикам акустические различия между звуками, или для логопедов — показывать пациенту визуальную обратную связь при коррекции произношения.

Ограничения метода

Спектральный анализ не является универсальным решением. Его результаты зависят от качества записи, эмоционального состояния говорящего, темпа речи. Формантные частоты варьируются в зависимости от пола, возраста и анатомии вокального тракта, что требует нормализации данных при сравнении между говорящими. В судебной экспертизе спектральные признаки никогда не используются изолированно — только в комплексе с лингвистическим и контекстуальным анализом.

Заключение

Спектральный анализ превращает речь из субъективно воспринимаемого явления в объект количественного измерения. Это не отменяет важности лингвистической интерпретации, но предоставляет дополнительный инструмент для объективной оценки речевых параметров. В условиях распространения голосовых технологий и цифровых методов в гуманитарных науках понимание основ спектрального анализа становится полезным навыком для специалистов смежных профессий — от учителей и логопедов до разработчиков и экспертов-криминалистов.

Литература

  1. Бондарко Л. В. Звуковой строй современного русского литературного языка. — СПб.: Изд-во СПбГУ, 2005.
  2. Johnson K. Acoustic and Auditory Phonetics. — 3rd ed. — Wiley-Blackwell, 2012.
  3. Kent R. D., Read C. Acoustic Analysis of Speech. — 2nd ed. — Delmar Learning, 2002.
  4. Nolan F. Speaker identification evidence: its forms, limitations, and prospects // International Journal of Speech, Language and the Law. — 2003. — Vol. 10, № 2. — P. 204–223.
  5. Boersma P., Weenink D. Praat: Doing Phonetics by Computer. — Версия 6.3.13. — 2024. — http://www.praat.org/