Найти в Дзене
Москва FM

Российские учёные научились распознавать депрессию по голосу?

В человеческом голосе считываются усталость и тревога, напряжение и апатия, даже если сам человек говорит, что с ним всё в порядке. Именно на этом наблюдении построена новая разработка учёных Новосибирского государственного университета. Они создали цифровой сервис, который оценивает выраженность депрессии на основе акустических характеристик речи. В университете уже существует прототип сервиса, который обеспечивает полный цикл работы с данными от загрузки или записи аудио до визуализации результата и экспорта информации. Об этом сообщили в пресс службе вуза. Разработка находится на ранней стадии, но уже сейчас демонстрирует точность, сопоставимую с ведущими зарубежными исследованиями. Болезнь остаётся одной из самых распространённых и при этом самых недооценённых проблем здравоохранения. По оценкам Всемирной организации здравоохранения на 2025 год, с депрессивными расстройствами живут около 332 млн человек по всему миру. Депрессия далеко не всегда выглядит так, как её представляют в м
Оглавление

В человеческом голосе считываются усталость и тревога, напряжение и апатия, даже если сам человек говорит, что с ним всё в порядке. Именно на этом наблюдении построена новая разработка учёных Новосибирского государственного университета. Они создали цифровой сервис, который оценивает выраженность депрессии на основе акустических характеристик речи.

Фото: Shutterstock
Фото: Shutterstock

В университете уже существует прототип сервиса, который обеспечивает полный цикл работы с данными от загрузки или записи аудио до визуализации результата и экспорта информации. Об этом сообщили в пресс службе вуза. Разработка находится на ранней стадии, но уже сейчас демонстрирует точность, сопоставимую с ведущими зарубежными исследованиями.

Как проявляется депрессия?

Болезнь остаётся одной из самых распространённых и при этом самых недооценённых проблем здравоохранения. По оценкам Всемирной организации здравоохранения на 2025 год, с депрессивными расстройствами живут около 332 млн человек по всему миру. Депрессия далеко не всегда выглядит так, как её представляют в массовой культуре. Часто она маскируется под телесные жалобы. У человека болит сердце, тянет живот, появляется постоянная слабость или ощущение общего недомогания без видимой причины. Врачи общей практики в таких случаях нередко сосредотачиваются на поиске соматической патологии. Времени и ресурсов на углублённую психиатрическую диагностику обычно не хватает, следует из данных ВОЗ.

«Помочь снизить нагрузку на врачей и обеспечить точную, качественную и своевременную диагностику может анализ объективных показателей депрессии. В качестве одного из таких показателей может служить анализ голоса», — пояснила старший преподаватель Новосибирского государственного университета Марина Злобина.

Технология не претендует на роль замены психолога или психиатра. Это лишь вспомогательный инструмент, который может использоваться врачами общего профиля для выявления депрессии при соматических заболеваниях, а также так называемой маскированной депрессии, которая проявляется через физические жалобы, боли и общее недомогание без ясной медицинской причины.

Фото: Shutterstock
Фото: Shutterstock

Как работает новый сервис?

Традиционные методы диагностики депрессии во многом зависят от самого пациента. Анкеты, самоотчёты, интервью предполагают честные и осознанные ответы. Но человек может занижать симптомы, не осознавать их или стараться выглядеть лучше из страха осуждения. В психологии это называют фактором социальной желательности. Анализ голоса позволяет обойти эту ловушку. Акустические характеристики речи относятся к объективным показателям, которые человек не может произвольно контролировать.

«Диагностика депрессии по акустическим характеристикам голоса имеет преимущество перед традиционными методами. Она исключает фактор социальной желательности, поскольку является объективным показателем», — подчеркнула Марина Злобина.

Речь в данном случае рассматривается как естественный биомаркер психического состояния. Даже короткий фрагмент записи содержит информацию об энергетике голоса. При депрессивных и тревожных состояниях эта энергетика меняется, и алгоритмы способны уловить эти изменения, даже если человеческое ухо их не различает.

Как возникла идея?

«Это было пару лет назад, когда мы с командой одногруппников выполняли учебную задачу в рамках магистратуры Московского физикотехнического института. Нужно было определить настроение говорящего по голосовым сообщениям и не базовые эмоции, а сложные эмоционально мотивационные состояния вроде сочувствия, интереса или недовольства», — рассказал инженер по машинному обучению и аналитик данных Кирилл Кириленко, один из разработчиков проекта.

Задача была решена с высокой точностью, после чего возник вопрос, можно ли теми же методами отделять норму от патологии в сфере ментального здоровья. Начался поиск научных публикаций, подходов и партнёров. Так проект оказался в Новосибирском государственном университете.

«Я обратился с предложением к коллегам из НГУ. Они поддержали идею и взялись за совместную реализацию проекта. Особенно хочу отметить Самуила, Юлию Генагину и Марину Владимировну Злобину», — добавил Кириленко в эфире «Москва FM».

Как собирали данные?

Для обучения нейросетевой модели исследователям потребовались реальные голоса людей с разной степенью выраженности депрессивных и тревожных симптомов.

«Мы проводили большой скрининг. Использовали опросники на большой группе испытуемых и уже по их результатам видели, у кого высокий балл. Были группы без симптомов, с лёгкими, умеренными и выраженными симптомами», — объяснил Кирилл Кириленко.
Фото: Shutterstock
Фото: Shutterstock

Не у всех участников был подтверждённый психиатрический диагноз. Это принципиальный момент, поскольку многие люди живут с депрессией, даже не подозревая о ней.

«Кто то ходит и не знает, что расстройство присутствует. Тем не менее симптомы есть», — отметил Кириленко.

В общей сложности было собрано более 90 аудиоинтервью. На основе этих данных модель обучили классифицировать речь по четырём уровням выраженности депрессии от отсутствия симптомов до тяжёлой формы. Для оценки степени выраженности использовали специализированный опросник.

Насколько это точно?

«Точность моделей составляет примерно 94–95%, или в долях 0,95. Есть ещё показатель f1 score, это более объективная мера эффективности, и он тоже находится в районе 0,94–0,95», — рассказал Кирилл Кириленко.

По словам разработчиков, эти показатели сопоставимы с результатами ведущих зарубежных исследований в области анализа речи и психического состояния. Модель работает не с заранее выделенными параметрами, а с сырым речевым сигналом.

Что именно анализирует алгоритм?

«Не обязательно, чтобы в голосе были эмоции. Мы выделяем неявные, слабоформализуемые паттерны, которые человеческое ухо даже не способно распознать», — пояснил Кирилл Кириленко.

Ранее в подобных исследованиях пытались вручную выделять параметры вроде длины пауз или отдельных частотных характеристик. Современные модели машинного обучения пошли другим путём.

«Используются трансформеры, которые работают с сырым речевым сигналом. Свойства выделяются самой моделью, это не линейный процесс, который сложно описать языком классической обработки сигналов», — рассказал Кириленко.

Сколько времени нужно?

Для предварительной оценки состояния человеку не нужно долго говорить.

«Достаточно очень короткого фрагмента, буквально 10 секунд речи уже можно использовать для определения того, насколько выражены симптомы депрессии», — отметил Кириленко.

Не требуется отвечать на специальные вопросы или говорить на заданную тему. Анализу подлежит сама акустическая структура голоса. Вопрос этики при этом остаётся принципиальным. Разработчики подчёркивают, что использование технологии возможно только с согласия человека.

«Анализировать голос без ведома испытуемого неэтично. Согласие здесь обязательно», — подчеркнул Кириленко.
Фото: Shutterstock
Фото: Shutterstock

Для кого это?

Создатели сервиса сразу обозначают его целевую аудиторию.

«На текущем этапе мы видим это как инструмент для профессионалов. Он может использоваться для быстрого скрининга или выявления симптомов на ранних стадиях», — рассказал Кириленко.

Пока отзывы от практикующих врачей ещё не получены. Разработка находится на раннем этапе и требует дальнейших исследований, клинической валидации и доработки.

Проект реализуется при поддержке программы «Приоритет 2030». Это позволяет исследователям смотреть дальше текущей задачи.

«В будущем технология может использоваться для диагностики других психических расстройств при наличии дополнительных данных. Также возможно подключение других модальностей, например анализа мимики по видеозаписи», — рассказала Марина Злобина.

Голос может стать лишь одним из элементов комплексной оценки состояния человека. В сочетании с визуальными и поведенческими данными это открывает новые возможности для раннего выявления расстройств, которые годами остаются незамеченными.