11,8 тыс подписчиков

Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике

#наука _мгу #днт

Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера. Новый метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской Конференции ММРО-2023.

исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, новый метод выделяется своей универсальностью и эффективностью.

Основные инновации включают обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров; оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров; адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров; потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.

Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.

Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.

Подробнее — на сайте.

Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике #наука _мгу #днт Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект»...

1 минута

8 мая 2024