Найти в Дзене

Акустическая фонетика: «Спектральный анализ речи: от теории к цифровым инструментам»

Статья посвящена спектральному анализу речи как ключевому методу акустической фонетики, позволяющему трансформировать речевой сигнал из временной области в частотное представление для выявления лингвистически значимых признаков. Рассматриваются физические основы метода — разложение квазипериодического речевого сигнала на гармонические компоненты с помощью преобразования Фурье, а также модификации для анализа нестационарных сигналов (коротковременное преобразование Фурье, вейвлет-анализ). Особое внимание уделено теоретическому фундаменту в виде модели «источник-фильтр» Г. Фанта, объясняющей связь между артикуляцией и спектральными паттернами через формантную структуру вокального тракта. Прослеживается эволюция инструментария — от механических сонаграфов 1930–1950-х годов до современных программных сред (Praat, Librosa), обеспечивающих автоматизированный анализ корпусных данных. Приводятся практические ориентиры интерпретации спектрограмм для различных классов звуков, обсуждаются типичны
Оглавление

Аннотация

Статья посвящена спектральному анализу речи как ключевому методу акустической фонетики, позволяющему трансформировать речевой сигнал из временной области в частотное представление для выявления лингвистически значимых признаков. Рассматриваются физические основы метода — разложение квазипериодического речевого сигнала на гармонические компоненты с помощью преобразования Фурье, а также модификации для анализа нестационарных сигналов (коротковременное преобразование Фурье, вейвлет-анализ). Особое внимание уделено теоретическому фундаменту в виде модели «источник-фильтр» Г. Фанта, объясняющей связь между артикуляцией и спектральными паттернами через формантную структуру вокального тракта. Прослеживается эволюция инструментария — от механических сонаграфов 1930–1950-х годов до современных программных сред (Praat, Librosa), обеспечивающих автоматизированный анализ корпусных данных. Приводятся практические ориентиры интерпретации спектрограмм для различных классов звуков, обсуждаются типичные ошибки измерения. Демонстрируется прикладная значимость метода в клинической фониатрии (диагностика дисфоний через гармонико-шумовое отношение и джиттер), диалектологии (картографирование гласных сдвигов) и судебной экспертизе (верификация диктора). В заключение анализируются фундаментальные ограничения спектрального подхода (компромисс временного и частотного разрешения, анатомическая вариативность формант) и перспективы его интеграции с артикуляторными и нейрокогнитивными методами. Статья адресована лингвистам, фонетистам и исследователям речевых технологий, стремящимся к теоретически обоснованному применению спектральных методов.

Ключевые слова: акустическая фонетика, спектральный анализ, форманты, теория «источник-фильтр», Praat, спектрограмма, коартикуляция, акустические признаки речи.

Более краткая статья на эту тему расположена здесь.

Введение

Акустическая фонетика изучает речь как физический феномен — колебательный процесс, возникающий в результате аэродинамических и механических взаимодействий в речевом аппарате и распространяющийся в воздушной среде в виде звуковых волн (Johnson, 2012, с. 1–3). В отличие от артикуляционной фонетики, фокусирующейся на движениях органов речи, или акустической фонетики, анализирующей слуховое восприятие, акустическая фонетика занимает промежуточную позицию: она исследует объективные параметры речевого сигнала — частоту, амплитуду, спектральный состав и временную структуру — которые могут быть измерены независимо от субъективного восприятия. Этот подход позволяет трансформировать языковые явления в количественные данные, доступные для математического анализа и сравнительных исследований.

Спектральный анализ выступает концептуальным и методологическим мостом между артикуляционной реализацией звука и его восприятием. Артикуляторные жесты (положение языка, губ, мягкого нёба) формируют резонансные свойства вокального тракта, которые проявляются в спектре речевого сигнала как концентрация акустической энергии на определённых частотах — формантах. Одновременно именно эти спектральные паттерны служат первичным стимулом для слуховой системы, где они трансформируются в фонологические категории. Таким образом, спектрограмма становится «нейтральной территорией», где артикуляционные и перцептивные модели могут быть соотнесены через измеримые акустические параметры (Johnson, 2012, с. 4–7; Stevens, 2000, с. 3–5).

Актуальность спектрального анализа выходит далеко за рамки теоретической лингвистики. В прикладной сфере он лежит в основе современных систем автоматического распознавания речи (ASR), где алгоритмы машинного обучения обучаются на спектральных признаках (мел-частотных кепстральных коэффициентах, спектральных наклонах) для классификации фонем и слов (Rabiner & Schafer, 2007). В клинической практике спектральные метрики — такие как гармонико-шумовое отношение (HNR) или джиттер/шиммер — используются для объективной диагностики голосовых расстройств, заменяя субъективные оценки врача количественными показателями (Kent & Read, 2002). Наконец, в судебной фонетике спектральный анализ служит инструментом верификации диктора, хотя его применение требует строгого учёта контекстуальных факторов (качество записи, эмоциональное состояние говорящего), что подчёркивает необходимость глубокого теоретического понимания метода (Nolan, 2003). Интеграция спектрального анализа в междисциплинарные исследования делает его не просто техническим приёмом, а фундаментальным подходом к изучению природы речи.

Раздел 1. Физические основы спектрального анализа

1.1. Речевой сигнал как квазипериодическая волна

Речевой сигнал представляет собой сложное колебание, возникающее в результате взаимодействия источника звука — вибраций голосовых складок при звонких сегментах или турбулентного шума при фрикативных — и резонирующей системы, формируемой конфигурацией вокального тракта. В отличие от идеальной периодической волны, речь является квазипериодическим сигналом: его форма повторяется приблизительно, но не абсолютно точно от цикла к циклу. Эта вариативность обусловлена непрерывной динамикой артикуляции — плавными переходами между звуками, коартикуляцией и микродвижениями органов речи.

Теоретической основой анализа такого сигнала служит теорема Фурье, утверждающая, что любое периодическое колебание может быть представлено как сумма синусоидальных компонент (гармоник) с частотами, кратными основной частоте, и различными амплитудами и фазами. Для квазипериодических сигналов применяется обобщённая форма разложения — интеграл Фурье, позволяющий представить непериодический сигнал как непрерывную сумму синусоидальных компонент. В результате речевой сигнал трансформируется из временной области, где отображается зависимость амплитуды от времени, в частотную область, где становится видным распределение акустической энергии по частотам. Этот переход открывает доступ к анализу внутренней спектральной структуры речи, недоступной при визуальном осмотре осциллограммы.

1.2. Преобразование Фурье и его модификации для речи

Прямое применение классического преобразования Фурье к речевому сигналу наталкивается на фундаментальную проблему: речь является нестационарным сигналом, то есть её спектральные характеристики изменяются во времени в масштабе десятков миллисекунд. Классическое преобразование Фурье предполагает стационарность сигнала на всём интервале анализа, что делает его неприменимым для речи без существенных модификаций.

Решением стало коротковременное преобразование Фурье (Short-Time Fourier Transform, STFT). Суть метода заключается в разбиении исходного сигнала на короткие перекрывающиеся сегменты (окна) длительностью 20–40 мс, в пределах которых речь может рассматриваться как приблизительно стационарная. К каждому сегменту независимо применяется преобразование Фурье, а результаты последовательных преобразований объединяются в двумерное представление — спектрограмму. На спектрограмме по горизонтальной оси отложено время, по вертикальной — частота, а интенсивность энергии в каждой точке пространства «время–частота» кодируется цветом или яркостью. Такой подход позволяет отслеживать динамику спектральных изменений в реальном времени.

Для анализа переходных явлений — взрывных согласных, быстрых формантных переходов — ограничения STFT становятся заметными. Фиксированная ширина окна анализа создаёт неустранимый компромисс между временным и частотным разрешением, известный как принцип неопределённости в обработке сигналов. Вейвлет-преобразование предлагает альтернативный подход: оно использует масштабируемые базисные функции (вейвлеты), обеспечивая высокое временное разрешение для высокочастотных компонент и высокое частотное разрешение для низкочастотных. Это особенно полезно при анализе шумовых компонент взрывных согласных или быстрых переходов между звуками, где критически важна точная локализация событий во времени.

1.3. Параметры спектрограммы

Качество и информативность спектрограммы определяются выбором параметров анализа, прежде всего шириной окна — длительностью сегмента, к которому применяется преобразование Фурье. Этот выбор задаёт фундаментальный компромисс: узкое окно обеспечивает высокое временное разрешение (точную локализацию событий во времени), но низкое частотное разрешение (размытые форманты); широкое окно даёт чёткое разделение частотных компонент, но «размазывает» быстрые переходы во времени (ниже на рисунках представлены спектограммы звуков [а], [и], [у]).

Рис. 1. Широкополосная (вверху, 3 мс) и узкополосная (внизу, 40 мс) спектрограммы гласного [а]. Вертикальные стрии на верхней панели отражают периоды основного тона (~120 Гц); на нижней панели чётко различимы три форманты (F1 ≈ 750 Гц, F2 ≈ 1250 Гц, F3 ≈ 2400 Гц).
Рис. 1. Широкополосная (вверху, 3 мс) и узкополосная (внизу, 40 мс) спектрограммы гласного [а]. Вертикальные стрии на верхней панели отражают периоды основного тона (~120 Гц); на нижней панели чётко различимы три форманты (F1 ≈ 750 Гц, F2 ≈ 1250 Гц, F3 ≈ 2400 Гц).
Рис. 2. Спектрограммы гласного [и]. Низкая первая форманта (F1 ≈ 300 Гц) коррелирует с высоким подъёмом языка; высокая вторая форманта (F2 ≈ 2300 Гц) — с передней артикуляцией. Отчётливо видны три формантных резонанса на узкополосной панели.
Рис. 2. Спектрограммы гласного [и]. Низкая первая форманта (F1 ≈ 300 Гц) коррелирует с высоким подъёмом языка; высокая вторая форманта (F2 ≈ 2300 Гц) — с передней артикуляцией. Отчётливо видны три формантных резонанса на узкополосной панели.
Рис. 3. Спектрограммы гласного [у]. Сближение первых двух формант (F1 ≈ 350 Гц, F2 ≈ 800 Гц) обусловлено одновременным подъёмом языка к нёбу и лабиализацией (округлением губ), снижающей резонансные частоты вокального тракта.
Рис. 3. Спектрограммы гласного [у]. Сближение первых двух формант (F1 ≈ 350 Гц, F2 ≈ 800 Гц) обусловлено одновременным подъёмом языка к нёбу и лабиализацией (округлением губ), снижающей резонансные частоты вокального тракта.

На практике выделяют два основных типа спектрограмм:

  • Широкополосные спектрограммы (ширина окна 3–10 мс) обеспечивают временное разрешение, достаточное для визуализации отдельных периодов основного тона в виде вертикальных структур в области звонких сегментов, а также для точной локализации взрывных согласных и микропауз. Однако форманты на таких спектрограммах выглядят размытыми, что затрудняет их точное измерение. Широкополосные спектрограммы предпочтительны для анализа временной структуры речи — длительности сегментов, динамики переходов, особенностей артикуляторной реализации согласных.
  • Узкополосные спектрограммы (ширина окна 40–100 мс) обеспечивают высокое частотное разрешение, позволяя чётко различать форманты гласных и резонансные пики вокального тракта. Однако временная локализация событий ухудшается: быстрые переходы «размываются», а отдельные периоды основного тона становятся неразличимыми. Узкополосные спектрограммы применяются при анализе статических характеристик гласных, измерении формантных частот, изучении спектрального наклона и других параметров, требующих точного определения частотных пиков.

Выбор типа спектрограммы определяется исследовательской задачей: анализ динамики артикуляции требует широкополосного представления, тогда как измерение резонансных частот вокального тракта предполагает использование узкополосного анализа. Современные программы акустического анализа позволяют гибко настраивать параметры окна, а также комбинировать оба подхода в рамках единого исследования для получения максимально полной картины акустических свойств речевого сигнала.

Раздел 2. Теоретический фундамент: от акустической теории Фанта к современным моделям

2.1. Теория «источник-фильтр»

Центральной концепцией акустической фонетики стала теория «источник-фильтр», сформулированная Гюнтером Фантом в 1960 году. Эта модель предлагает декомпозицию речевого сигнала на два независимых компонента: источник звука и резонансный фильтр.

Источником служит энергия, генерируемая в нижних отделах речевого аппарата. При звонких сегментах источником являются периодические колебания голосовых складок, создающие квазипериодический сигнал с основным тоном (F₀) и серией гармоник, кратных F₀. При глухих фрикативных источником выступает турбулентный шум, возникающий при прохождении воздушной струи через сужение в полости рта; такой сигнал характеризуется широкополосным спектром без выраженной гармонической структуры. При взрывных согласных источником может быть кратковременный импульс, возникающий при освобождении смычки.

Фильтром выступает надгортанная часть речевого тракта — полость от голосовой щели до губ, включающая глотку, ротовую и носовую полости. Конфигурация этой полости (положение языка, губ, мягкого нёба, степень открытия челюсти) определяет её резонансные свойства: определённые частоты усиливаются, другие ослабляются. Результатом фильтрации является спектр с выраженными пиками энергии — формантами. Ключевое предположение теории заключается в независимости источника и фильтра: один и тот же вокальный тракт (фильтр) может модифицировать разные источники (звонкий, глухой, шумовой), порождая разнообразные звуковые классы при сохранении артикуляторной позы.

Эта модель объясняет, почему гласные сохраняют свою идентичность независимо от тональности говорящего: хотя основной тон (характеристика источника) у мужчин, женщин и детей различается в 2–3 раза, резонансные частоты вокального тракта (характеристика фильтра) остаются относительно стабильными для данной артикуляторной позы, что обеспечивает перцептивную устойчивость гласных.

2.2. Форманты как акустические корреляты артикуляции

Форманты — пики спектральной энергии, обусловленные резонансами вокального тракта — служат основным акустическим маркером гласных. Первые две форманты (F1 и F2) несут ключевую информацию о положении языка и губ.

Частота первой форманты (F1) обратно коррелирует с высотой языка: чем выше поднят язык к нёбу, тем меньше объём резонирующей полости над языком, тем ниже частота первой форманты. Например, для гласного [и] (высокий передний) F1 составляет примерно 250–350 Гц, тогда как для [а] (низкий центральный) — 650–850 Гц (рис.4).

Рис. 4. Формантная структура гласного [а]. Высокая F1 (~750 Гц) указывает на низкую позицию языка; средняя F2 (~1250 Гц) — на центральную артикуляцию. Третья форманта (F3 ≈ 2400 Гц) подтверждает отсутствие лабиализации.
Рис. 4. Формантная структура гласного [а]. Высокая F1 (~750 Гц) указывает на низкую позицию языка; средняя F2 (~1250 Гц) — на центральную артикуляцию. Третья форманта (F3 ≈ 2400 Гц) подтверждает отсутствие лабиализации.

Частота второй форманты (F2) коррелирует с передне-задней позицией языка: чем дальше язык смещён вперёд, тем выше F2. Для переднего гласного [и] F2 достигает 2200–2800 Гц, для заднего [у] — снижается до 600–900 Гц. Округление губ дополнительно снижает частоту второй (и третьей) формант за счёт удлинения эффективной длины резонирующей полости (рис. 5, 6)

Рис. 5. Формантная структура гласного [и]. Низкая F1 (~300 Гц) соответствует высокому подъёму языка; высокая F2 (~2300 Гц) — передней позиции. Чёткое разделение формант демонстрирует стабильность артикуляции.
Рис. 5. Формантная структура гласного [и]. Низкая F1 (~300 Гц) соответствует высокому подъёму языка; высокая F2 (~2300 Гц) — передней позиции. Чёткое разделение формант демонстрирует стабильность артикуляции.
Рис. 6. Формантная структура гласного [у]. Сближение F1 (~350 Гц) и F2 (~800 Гц) обусловлено одновременным подъёмом языка и округлением губ. Низкая F2 характерна для задних лабиализованных гласных.
Рис. 6. Формантная структура гласного [у]. Сближение F1 (~350 Гц) и F2 (~800 Гц) обусловлено одновременным подъёмом языка и округлением губ. Низкая F2 характерна для задних лабиализованных гласных.

Эти закономерности были впервые количественно задокументированы в классическом исследовании 1952 года, где измерены формантные частоты десяти гласных английского языка у 76 носителей разного пола и возраста. Результаты показали систематические связи между артикуляторными позициями и спектральными параметрами, а также выявили вариативность формантных частот в зависимости от пола и размера вокального тракта. Тем не менее, относительное расположение гласных в пространстве F1–F2 оставалось устойчивым, что подтвердило гипотезу о формантах как об акустических коррелятах артикуляции.

2.3. Динамические аспекты спектра

Статическая модель формант, описывающая гласные как точки в пространстве частот, не отражает динамической природы речи. В потоке речи форманты непрерывно изменяются: при переходе от одного звука к другому возникают формантные переходы — криволинейные траектории изменения частот формант во времени (спектрограммы расположены ниже на рисунках 7-9).

Рис. 7. Слог [па]: формантные переходы направлены вниз, что отражает заднюю артикуляцию губного согласного [п]. Вертикальная линия — граница взрыва.
Рис. 7. Слог [па]: формантные переходы направлены вниз, что отражает заднюю артикуляцию губного согласного [п]. Вертикальная линия — граница взрыва.
Рис. 8. Слог [та]: резкий подъём F2 после взрыва указывает на переднюю артикуляцию альвеолярного согласного [т].
Рис. 8. Слог [та]: резкий подъём F2 после взрыва указывает на переднюю артикуляцию альвеолярного согласного [т].
Рис. 9. Слог [ка]: характерный «изгиб» траектории F2 (снижение с последующим подъёмом) типичен для велярного согласного [к].
Рис. 9. Слог [ка]: характерный «изгиб» траектории F2 (снижение с последующим подъёмом) типичен для велярного согласного [к].

Эти переходы несут важную информацию о месте артикуляции согласных. Например, при произнесении слога [di] форманты гласного [и] начинаются с низких значений (из-за предшествующей артикуляции альвеолярного согласного) и плавно поднимаются к устойчивым значениям гласного. Напротив, в слоге [du] переходы направлены вниз из-за задней артикуляции губно-губного согласного. Таким образом, даже при идентичном гласном его спектральная реализация варьируется в зависимости от соседних согласных, и именно эти переходы служат перцептивными маркерами места артикуляции согласного.

Явление коартикуляции — одновременной или перекрывающейся реализации нескольких артикуляторных жестов — объясняет эту вариативность. Артикуляторная система не переходит мгновенно от одной позиции к другой; вместо этого жесты для соседних звуков частично перекрываются во времени. В спектральной области это проявляется как наложение формантных траекторий: спектр любого сегмента отражает не только его собственную артикуляцию, но и влияние предшествующих и последующих звуков. Коартикуляция является не «ошибкой» произношения, а фундаментальным свойством речевой моторики, обеспечивающим плавность и скорость речи. Понимание динамических аспектов спектра критически важно как для теоретической фонетики (моделирование связи артикуляции и акустики), так и для прикладных задач (повышение устойчивости систем распознавания речи к контекстуальной вариативности).

Раздел 3. Эволюция инструментария спектрального анализа

3.1. Докомпьютерная эпоха (1930–1960-е годы)

Первые инструменты спектрального анализа возникли в 1930-х годах в исследовательских лабораториях компании Bell Telephone Laboratories. Сонаграф (sound spectrograph) представлял собой электромеханическое устройство, реализующее анализ сигнала через банк узкополосных резонаторов. Речевой сигнал подавался на вход системы, где параллельно проходил через десятки резонаторов с разными центральными частотами. Выход каждого резонатора детектировался и преобразовывался в механическое движение стилуса, выжигавшего изображение на покрытой воском бумаге. Результатом становилась спектрограмма — визуальное представление распределения энергии по частотам во времени. Процесс был медленным: одна секунда речи требовала нескольких минут анализа, а интерпретация полученных изображений зависела от субъективной оценки исследователя.

В 1950–1960-е годы широкое распространение получили анализаторы Кей-Сёрвайвор (Kay Elemetrics Sonograph), ставшие стандартом в лабораториях фонетики и судебной экспертизы. Эти устройства использовали аналоговую полосовую фильтрацию с последующей записью на термочувствительную бумагу. Преимуществом системы была относительная мобильность и возможность получения спектрограмм в реальном времени (хотя с задержкой в несколько секунд). Однако методология имела принципиальные ограничения: отсутствие цифрового хранения данных делало невозможным их повторный анализ или количественную обработку; калибровка приборов была неточной; а субъективность визуальной интерпретации спектрограмм затрудняла воспроизводимость результатов. Тем не менее, именно на основе данных, полученных с помощью этих приборов, были заложены основы современной акустической фонетики — описаны формантные структуры гласных, выявлены акустические корреляты согласных, разработаны первые модели связи артикуляции и акустики.

3.2. Цифровая революция (1970–1990-е годы)

Появление персональных компьютеров и развитие алгоритмов цифровой обработки сигналов в 1970-х годах коренным образом изменили методологию спектрального анализа. Ключевым прорывом стало внедрение алгоритма быстрого преобразования Фурье (Fast Fourier Transform, FFT), разработанного Кули и Тьюки в 1965 году, который сократил вычислительную сложность спектрального анализа с O(N²) до O(N log N), сделав возможным обработку речевых сигналов в приемлемые сроки даже на компьютерах с ограниченными ресурсами.

Первые программные комплексы для фонетического анализа появились в 1980-х годах. Система SPIRE (System for Phonetic Inquiry and Research Environment), разработанная в Йельском университете, и её коммерческий аналог CSRE (Computerized Speech Research Environment) от компании Авиэй позволили исследователям не только визуализировать спектрограммы на экране монитора, но и извлекать количественные параметры — частоты формант, основной тон, длительность сегментов — с точностью, недоступной при визуальной оценке аналоговых спектрограмм. Цифровое хранение данных обеспечило воспроизводимость исследований: один и тот же файл мог анализироваться разными исследователями с применением различных параметров анализа. Однако эти системы оставались дорогими, требовали специализированного оборудования и распространялись преимущественно в рамках ограниченного круга университетских лабораторий.

3.3. Современные инструменты (2000-е годы — настоящее время)

Настоящий демократический прорыв в акустической фонетике произошёл с появлением программы Praat, разработанной Паулом Берсма и Давидом Венинком (Амстердамский университет) в начале 1990-х годов и ставшей свободно распространяемой с 2000 года. Praat объединила в единой среде инструменты для спектрального анализа (спектрограммы, формантный трекинг), измерения параметров голоса (основной тон, джиттер, шиммер), синтеза речи и даже артикуляторного моделирования. Алгоритм трекинга формант, реализованный в Praat на основе метода Бюрга (Burg method) для авторегрессионного моделирования, обеспечил автоматическое отслеживание формантных траекторий с точностью, приближающейся к экспертной оценке. Критически важным стало наличие скриптового языка, позволившего автоматизировать рутинные операции анализа и обрабатывать корпусные данные.

С 2010-х годов наблюдается интеграция фонетического анализа в экосистему цифровых гуманитарных наук через программные библиотеки общего назначения. Библиотека Librosa (Python) предоставляет гибкие инструменты для извлечения спектральных признаков — мел-спектрограмм, хромаграмм, спектральных центроидов — что особенно востребовано в исследованиях, сочетающих лингвистику и машинное обучение. Библиотека Parselmouth обеспечивает прямой интерфейс между Python и движком Praat, позволяя запускать алгоритмы Praat в рамках автоматизированных конвейеров обработки больших корпусов речи. Эти инструменты трансформируют спектральный анализ из узкоспециализированной методики в компонент масштабных междисциплинарных исследований — от диахронической фонетики на материалах архивных записей до анализа вариативности речи в социальных сетях. При этом сохраняется необходимость критического подхода к автоматическим измерениям: алгоритмы формантного трекинга по-прежнему требуют ручной верификации, особенно в условиях шумной записи или при анализе речи детей и лиц с патологиями голоса.

Раздел 4. Интерпретация спектрограмм: практические ориентиры

4.1. Визуальные маркеры звуковых классов

Спектрограмма предоставляет богатый визуальный материал для идентификации звуковых классов, однако корректная интерпретация требует понимания связи между артикуляторными жестами и их спектральной реализацией. Наиболее выраженные паттерны проявляются при анализе гласных, звонких и глухих согласных. Ниже расположены спектрограммы маркеров звуковых классов русского языка [а], [с], [па].

Рис. 4. Спектральные маркеры трёх звуковых классов русского языка: (а) звонкий гласный [а] — горизонтальные форманты и вертикальные гармоники основного тона; (б) глухой фрикативный [с] — шумовая область без гармонической структуры (энергия концентрируется в диапазоне 4000–8000 Гц); (в) взрывной [п] в слоге [па] — трёхфазная структура (смычка → импульс взрыва → формантный переход). Параметры анализа: окно 25 мс, перекрытие 75%.
Рис. 4. Спектральные маркеры трёх звуковых классов русского языка: (а) звонкий гласный [а] — горизонтальные форманты и вертикальные гармоники основного тона; (б) глухой фрикативный [с] — шумовая область без гармонической структуры (энергия концентрируется в диапазоне 4000–8000 Гц); (в) взрывной [п] в слоге [па] — трёхфазная структура (смычка → импульс взрыва → формантный переход). Параметры анализа: окно 25 мс, перекрытие 75%.

Гласные на спектрограмме проявляются как система горизонтальных тёмных полос — формант, соответствующих резонансным частотам вокального тракта. Первая форманта (F1) обычно расположена в диапазоне 200–1000 Гц, вторая (F2) — 500–2500 Гц, третья (F3) — 1500–3500 Гц. Число видимых формант и их чёткость зависят от ширины анализирующего окна: на узкополосных спектрограммах форманты выглядят как непрерывные линии, тогда как на широкополосных они могут прерываться вертикальными структурами, соответствующими отдельным периодам основного тона. Для передних гласных характерно большое расстояние между F1 и F2 (высокая F2), для задних — сближение формант (низкая F2), для округлённых — дополнительное снижение частоты второй и третьей формант.

Звонкие сегменты (гласные, сонорные, звонкие щелевые) демонстрируют вертикальную структурированность в области низких частот — серию равноотстоящих вертикальных линий или «стрий», соответствующих гармоникам основного тона. Расстояние между стриями обратно пропорционально основному тону: у мужчин (F₀ ≈ 100–150 Гц) стрии расположены реже, чем у женщин (F₀ ≈ 180–220 Гц) и детей (F₀ ≈ 250–350 Гц). Эта структура отсутствует при глухих сегментах, что позволяет визуально различать звонкие и глухие пары ([з]–[с], [б]–[п]).

Глухие фрикативные согласные проявляются как шумовая область без выраженной гармонической структуры. Спектральная локализация шума указывает на место артикуляции: для губно-губных ([ф]) энергия концентрируется ниже 2000 Гц, для альвеолярных ([с]) — в диапазоне 4000–8000 Гц, для твёрдых ([ш]) — 2000–4000 Гц с более плоским спектральным наклоном. Взрывные согласные характеризуются трёхфазной структурой: смычка (область минимальной энергии), взрыв (кратковременный широкополосный импульс) и формантный переход к последующему гласному. Направление и крутизна переходов несут информацию о месте артикуляции: для губных переходы направлены вниз, для альвеолярных — вверх и вправо, для велярных — вниз с последующим подъёмом.

4.2. Типичные ошибки интерпретации

Несмотря на наглядность спектрограмм, их интерпретация сопряжена с рядом методологических ловушек, особенно для начинающих исследователей.

Наиболее распространённая ошибка — смешение гармоник основного тона с формантами. У женщин и детей, обладающих высоким основным тоном (200–300 Гц и выше), расстояние между гармониками увеличивается, и вторая или третья гармоника может случайно совпасть по частоте с первой формантой. В результате исследователь ошибочно идентифицирует гармонику как форманту, что приводит к завышению оценки F1. Эта проблема особенно актуальна при анализе высоких гласных ([и], [у]), где истинная F1 сама по себе низка (250–400 Гц) и легко маскируется гармониками. Для предотвращения ошибки необходимо анализировать динамику: форманты сохраняют относительную стабильность или плавно изменяются при переходах между звуками, тогда как гармоники смещаются скачкообразно при изменении основного тона.

Искажение формантных измерений при высоком основном тоне было отмечено ещё в пионерском исследовании 1952 года, где авторы обнаружили систематическое завышение F1 у женщин и детей по сравнению с мужчинами при использовании автоматических методов анализа того времени. Причина заключалась в том, что при высоком F₀ энергия концентрируется в отдельных гармониках, а не распределяется непрерывно по спектру, что нарушало работу алгоритмов, предполагавших гладкое распределение энергии. Современные алгоритмы формантного трекинга учитывают этот эффект, но проблема сохраняется при ручном измерении или при анализе записей низкого качества.

Раздел 5. Прикладные применения спектрального анализа

5.1. Клиническая фонетика и диагностика голосовых расстройств

Спектральный анализ занял прочное место в арсенале клинической фониатрии и логопедии как инструмент объективной оценки голосовой функции. Традиционно диагностика дисфоний основывалась на субъективной перцептивной оценке врача по шкалам типа GRBAS (Grade, Roughness, Breathiness, Asthenia, Strain), что приводило к вариативности заключений между экспертами. Внедрение количественных спектральных метрик позволило стандартизировать диагностику и отслеживать динамику состояния пациента в ходе лечения.

Ключевыми параметрами являются гармонико-шумовое отношение (Harmonic-to-Noise Ratio, HNR) и показатели микронарушений периодичности — джиттер (вариативность основного тона от цикла к циклу) и шиммер (вариативность амплитуды). При нормальной голосовой функции энергия концентрируется в гармониках, что проявляется на спектрограмме как чёткая вертикальная структурированность в области низких частот и высокое HNR (15–25 дБ). При органических поражениях голосовых складок (полипы, узелки) или функциональных нарушениях (гиперфункциональная дисфония) увеличивается турбулентная компонента шума, что снижает HNR до 5–10 дБ и визуализируется как «размывание» гармонической структуры на спектрограмме. Джиттер и шиммер повышаются при неравномерной массе или натяжении голосовых складок, что характерно для парезов или атрофических изменений.

Особую ценность представляет анализ спектрального наклона — отношения энергии в низкочастотной и высокочастотной областях спектра. При гиперфункциональной дисфонии наблюдается избыточная энергия в области 2000–4000 Гц (положительный наклон), тогда как при гипофункциональной дисфонии энергия концентрируется в области основного тона с резким спадом к высоким частотам (отрицательный наклон). Эти метрики интегрируются в современные диагностические протоколы наряду с эндоскопическими данными, обеспечивая комплексную оценку голосовой функции.

5.2. Диалектология и историческая реконструкция звуковых изменений

Спектральный анализ трансформировал диалектологию из дисциплины, основанной преимущественно на слуховой транскрипции, в количественную науку, способную выявлять тонкие градиенты вариативности. Сравнение формантных траекторий гласных в разных диалектах позволяет не только фиксировать различия в статических характеристиках, но и анализировать динамику артикуляции — скорость и направление формантных переходов, что часто оказывается более информативным для различения диалектных вариантов.

Крупномасштабные проекты, такие как Атлас североамериканского английского, продемонстрировали силу спектрального подхода в картографировании звуковых сдвигов. Анализ формантных значений тысяч гласных в записях носителей из сотен населённых пунктов позволил визуализировать непрерывные географические градиенты — например, постепенное смещение гласного /æ/ вперёд и вверх при движении с юга на север США, или системный сдвиг гласных в «северной центральной цепи» (Northern Cities Vowel Shift). Критически важно, что спектральные данные выявили промежуточные стадии изменений, недоступные для слухового восприятия: говорящие, субъективно не ощущающие различий в произношении, демонстрировали статистически значимые сдвиги формантных частот на спектрограммах.

В исторической фонетике спектральный анализ применяется для реконструкции звуковых изменений на основе архивных записей. Сравнение формантных структур гласных в записях начала XX века с современными данными позволяет количественно оценить темпы и направление диахронических сдвигов. Например, анализ записей британских носителей 1920–1940-х годов выявил постепенное снижение второй форманты гласного /uː/ (как в слове goose), что коррелирует с известным историческим процессом «веляризации» этого гласного в британском английском. Таким образом, спектральные методы превращают архивные фонотеки в источник эмпирических данных для реконструкции истории языка.

5.3. Судебная фонетика и верификация диктора

Верификация личности говорящего по голосу представляет собой одну из наиболее дискуссионных областей применения спектрального анализа. В судебной практике спектрограммы долгое время использовались как «голосовые отпечатки» — уникальные паттерны, позволяющие идентифицировать диктора с высокой степенью достоверности. Однако современные исследования показали, что такая интерпретация упрощает сложную природу индивидуальной вариативности речи.

Спектральные признаки, используемые в верификации, включают не только статические характеристики (формантные частоты гласных, спектральный наклон), но и динамические параметры: темп речи, длительность пауз, паттерны интонационных контуров, характеристики переходных явлений. Однако все эти параметры подвержены значительной вариативности даже у одного говорящего: эмоциональное состояние (стресс, гнев), физиологические факторы (простуда, усталость), условия записи (качество микрофона, реверберация) и коммуникативный контекст (формальный vs. неформальный стиль) могут изменять спектральные характеристики в пределах, сопоставимых с межиндивидуальными различиями.

Современный подход к судебной верификации основан на вероятностной модели: вместо категорического утверждения «голос принадлежит подозреваемому» эксперт оценивает отношение правдоподобия (Likelihood Ratio) — насколько спектральные данные более вероятны при гипотезе совпадения дикторов по сравнению с гипотезой различия. Такой подход требует наличия референсной базы данных голосов для оценки распределения признаков в популяции. Критически важно, что спектральный анализ в судебном контексте никогда не применяется изолированно: он дополняется лингвистическим анализом (лексика, грамматика, прагматика) и, при возможности, другими биометрическими данными. Этическая ответственность эксперта заключается в чётком разграничении того, что может быть установлено спектральными методами, и того, что выходит за пределы их доказательной силы.

Раздел 6. Методологические ограничения и перспективы развития

6.1. Фундаментальные ограничения спектрального анализа

Спектральный анализ, несмотря на свою мощь как исследовательского инструмента, подчиняется фундаментальным физическим и математическим ограничениям, которые необходимо учитывать при интерпретации данных. Наиболее принципиальным является компромисс между временным и частотным разрешением, формально вытекающий из математического свойства преобразования Фурье, аналогичного принципу неопределённости в квантовой механике. Сужение анализирующего окна во времени приводит к расширению главного лепестка спектральной функции, то есть к снижению точности определения частоты; расширение окна улучшает частотное разрешение, но ухудшает способность локализовать быстрые события во времени. Этот компромисс неустраним: невозможно одновременно точно определить, когда произошло событие, и на какой частоте оно проявилось. В практическом плане это означает, что исследователь всегда вынужден выбирать между анализом динамики (требующим узкого окна) и анализом спектральной структуры (требующим широкого окна), что накладывает ограничения на интерпретацию переходных явлений, таких как взрывные согласные или быстрые коартикуляторные переходы.

Другим существенным ограничением является зависимость формантных частот от анатомических параметров говорящего. Длина и форма вокального тракта, определяемые полом, возрастом, ростом и индивидуальной конституцией, напрямую влияют на абсолютные значения формант: у мужчин, обладающих в среднем более длинным вокальным трактом, форманты расположены ниже, чем у женщин и детей. Это создаёт проблему при сравнении данных между говорящими или при построении универсальных моделей распознавания речи. Решением стала разработка методов нормализации формантных данных. Наиболее распространённый подход — использование относительных метрик вместо абсолютных частот: например, отношение второй форманты к первой (F2/F1) или нормализация по методу Лобана (Log-average formant frequency). Более сложные методы, такие как преобразование Барк-шкалы или логарифмическая нормализация по среднему гласному треугольника, позволяют частично компенсировать анатомическую вариативность и выделить лингвистически значимые различия. Однако ни один из методов не обеспечивает полной инвариантности, и проблема разделения анатомической и артикуляторной компонент вариативности остаётся открытой в современной фонетике.

6.2. Перспективы развития метода

Будущее спектрального анализа видится не в изоляции, а в интеграции с другими методами получения данных о речевой деятельности. Одним из перспективных направлений является мультимодальное исследование, сочетающее акустический анализ с прямыми измерениями артикуляции. Ультразвуковая артикулография (ультразвуковое изображение языка в реальном времени) и электромагнитная артикулография (отслеживание положения датчиков на органах речи) предоставляют данные о конфигурации вокального тракта, которые могут быть синхронизированы со спектрограммой. Такая интеграция позволяет не просто констатировать корреляцию между артикуляцией и акустикой, но моделировать причинно-следственные связи: как конкретное движение языка трансформируется в изменение формантной структуры. Ещё более детализированную картину даёт сочетание спектрального анализа с данными МРТ вокального тракта, позволяющее визуализировать трёхмерную геометрию полостей рта и глотки и рассчитывать их резонансные свойства с помощью методов вычислительной аэроакустики.

В области автоматизированного анализа наблюдается смещение от ручного извлечения признаков к методам глубокого обучения. Традиционные системы распознавания речи опирались на заранее определённые акустические признаки — мел-частотные кепстральные коэффициенты (MFCC), формантные частоты, основной тон. Современные архитектуры на основе свёрточных и трансформерных нейросетей способны напрямую обучаться на спектрограммах или даже на сырых аудиоданных, автоматически выделяя иерархию признаков, релевантных для конкретной задачи. Критически важным вызовом остаётся интерпретируемость таких моделей: если традиционные признаки имели чёткую лингвистическую интерпретацию («вторая форманта отражает передне-заднюю позицию языка»), то признаки, извлекаемые скрытыми слоями нейросети, часто остаются «чёрным ящиком». Перспективным направлением становится развитие гибридных моделей, сочетающих преимущества глубокого обучения (адаптивность, масштабируемость) с теоретически обоснованными ограничениями, заимствованными из акустической теории Фанта. Такие модели не только повышают точность распознавания, но и способствуют пониманию того, как спектральные паттерны трансформируются в фонологические категории в процессе восприятия речи.

Заключение

Спектральный анализ речи прошёл путь от специализированной математической техники до универсального инструмента, пронизывающего все уровни лингвистического исследования. Его теоретическая основа — разложение сложного сигнала на гармонические компоненты — оказалась удивительно плодотворной для понимания природы речи: она позволила формализовать связь между артикуляторными жестами и акустической реализацией через концепцию формант как резонансных пиков вокального тракта. Теория «источник-фильтр», сформулированная Фантом, до сих пор остаётся концептуальным ядром, объясняющим, как анатомические и физиологические параметры трансформируются в измеримые спектральные признаки.

Эволюция инструментария — от механических сонаграфов до программных сред с возможностью автоматизированной обработки корпусных данных — демократизировала метод, сделав его доступным не только узким специалистам, но и исследователям смежных дисциплин. Эта трансформация изменила саму природу фонетических исследований: вместо анализа отдельных примеров стало возможным изучение вариативности на статистически значимых выборках, что привело к открытию градиентных явлений, ранее скрытых за бинарными категориями транскрипции.

Практическая значимость спектрального анализа выходит далеко за рамки теоретической лингвистики. В клинической практике он обеспечивает объективную основу для диагностики голосовых расстройств; в диалектологии — позволяет картографировать непрерывные географические градиенты звуковых изменений; в судебной экспертизе — предоставляет верифицируемые данные для оценки голосовых образцов. При этом критически важно осознавать методологические ограничения: компромисс между временным и частотным разрешением, зависимость формант от анатомии говорящего, вариативность спектральных признаков под влиянием контекстуальных факторов. Эти ограничения не ослабляют метод, но требуют рефлексивного подхода к интерпретации данных.

Будущее спектрального анализа лежит в его интеграции с другими модальностями — артикуляторными измерениями, нейровизуализацией, вычислительными моделями восприятия. Такая мультимодальность позволит преодолеть традиционное разделение между уровнями описания речи и приблизиться к целостной модели, в которой артикуляция, акустика и восприятие рассматриваются как взаимосвязанные компоненты единого процесса. Спектральный анализ остаётся не просто техническим приёмом, а эпистемологическим мостом между физикой звука и лингвистической структурой — инструментом, позволяющим видеть в непрерывном колебании воздуха отражение языковой системы.

Источники

1. Boersma, P., & Weenink, D. (2024). Praat: Doing Phonetics by Computer [Computer program]. Версия 6.3.13. http://www.praat.org/

2. Fant, G. (1960). Acoustic Theory of Speech Production. Mouton.

3. Flanagan, J. L. (1972). Speech Analysis, Synthesis, and Perception (2nd ed.). Springer-Verlag.

4. Gold, B., Morgan, N., & Ellis, D. (2011). Speech and Audio Signal Processing: Processing and Perception of Speech and Music (2nd ed.). Wiley.

5. Hillenbrand, J., Getty, L. A., Clark, M. J., & Wheeler, K. (1995). Acoustic characteristics of American English vowels. Journal of the Acoustical Society of America, 97(5), 3099–3111.

6. Johnson, K. (2012). Acoustic and Auditory Phonetics (3rd ed.). Wiley-Blackwell.

7. Kent, R. D., & Read, C. (2002). Acoustic Analysis of Speech (2nd ed.). Delmar Learning.

8. Labov, W., Ash, S., & Boberg, C. (2006). The Atlas of North American English: Phonetics, Phonology and Sound Change. Mouton de Gruyter.

9. Ladefoged, P., & Johnson, K. (2015). A Course in Phonetics (7th ed.). Cengage Learning.

10. McFee, B., Raffel, C., Liang, D., Ellis, D. P. W., McVicar, M., Battenberg, E., & Nieto, O. (2015). librosa: Audio and Music Signal Analysis in Python. Proceedings of the 14th Python in Science Conference, 18–24.

11. McInnes, D., & Jack, M. A. (1991). CSRE: A Computer-Based Speech Research Environment. University of Edinburgh.

12. Nolan, F. (2003). Speaker identification evidence: its forms, limitations, and prospects. International Journal of Speech, Language and the Law, 10(2), 204–223.

13. Oppenheim, A. V., & Schafer, R. W. (2010). Discrete-Time Signal Processing (3rd ed.). Prentice Hall.

14. Peterson, G. E., & Barney, H. L. (1952). Control methods used in a study of the vowels. Journal of the Acoustical Society of America, 24(2), 175–184.

15. Scharenborg, O., ten Bosch, L., & Boves, L. (2010). Computational modelling of phonetic acquisition. В The Oxford Handbook of Computational Linguistics (2nd ed., pp. 445–462). Oxford University Press.

16. Stevens, K. N. (2000). Acoustic Phonetics. MIT Press.

17. Story, B. H. (2014). Theoretical and computational models of the vocal tract. В Speech Production: Models, Phonetic Processes, and Techniques (pp. 17–38). Psychology Press.