11,8 тыс подписчиков
Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике
#наука _мгу #днт
Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера. Новый метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской Конференции ММРО-2023.
исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, новый метод выделяется своей универсальностью и эффективностью.
Основные инновации включают обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров; оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров; адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров; потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.
Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.
Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.
1 минута
8 мая 2024