26,9 тыс подписчиков

Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста

28 января 202428 янв 2024

1 мин

Нейросеть Wav2Vec 2.0 модифицировали до того уровня, что теперь она умеет распознавать речь людей, которые рассказывают о сильнейшем эмоциональном потрясении, пережитым ими. Лингвисты Санкт-Петербургского государственного университета обучили нейросеть на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем. Распознавание эмоциональной речи является наиболее важной задачей для сферы общения человека и компьютерных автоматических систем, так как за счет успешного распознавания речи можно в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео, а также без особых усилий переводить его в текстовый формат. На сегодняшний день современные технологии и так позволяют распознавать человеческую речь, однако в том случае, когда она насыщена эмоциями, задача становится в разы сложнее. Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники сл

Распознавание эмоциональной речи является наиболее важной задачей для сферы общения человека и компьютерных автоматических систем, так как за счет успешного распознавания речи можно в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео, а также без особых усилий переводить его в текстовый формат. На сегодняшний день современные технологии и так позволяют распознавать человеческую речь, однако в том случае, когда она насыщена эмоциями, задача становится в разы сложнее.

Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники слишком ярко выражают свои эмоции. К примеру, плачут или кричат. Сильно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими эмоциональное потрясение, могло бы повышение качества работы систем, с помощью которых можно анализировать сказанное.

Как это работает?

В Петербургском университете специалисты создали нейросеть, позволяющую не только распознавать содержание сказанного, но и в точности определять эмоции, испытываемые людьми в процессе интервью.

Магистрант СПбГУ (кафедра математической лингвистики) Михаил Долгушин пояснил, что в работе ученые использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Она работает по принципу того, чтобы выучить сопоставление каждого звука устной человеческой речи с соответствующей буквой алфавита. Именно эта архитектура нейросети использует в своей работе и – так называемый – механизм внимания, позволяющий научиться фокусировать внимание на значимых для определения той или иной буквы по звуку признаках. Это и повышает качество результата на значительном уровне, сообщает пресс-служба СПбГУ.

Подробнее

moika78.ru

Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста - Мойка78.ру Новости СПб

Гаджеты и электроника

5,73 млн интересуются