143 тыс подписчиков

В США создали систему наушников, переводящую речь сразу нескольких собеседников

10 мая 202510 мая 2025

1 мин

Общение с группой людей, говорящих на разных языках, создает сложности для автоматических переводчиков. Новая разработка из США стремится упростить этот процесс, используя комбинацию распознавания пространства и голосового клонирования. Ученые из Вашингтонского университета разработали систему «пространственного перевода речи». Она встроена в модифицированные шумоподавляющие наушники и предназначена для ситуаций, когда одновременно говорят несколько человек. Устройство не просто переводит речь, а отслеживает говорящих в пространстве и сохраняет выразительные особенности их голосов. Технология использует встроенные микрофоны и алгоритмы, которые работают как своеобразный радар. Система определяет, сколько человек говорит рядом, где они находятся и как перемещаются. Она следит за направлением источников звука и обновляет свою модель в реальном времени. В результате каждый голос переводится с небольшой задержкой — от двух до четырех секунд — с сохранением громкости, интонации и направлени

Ученые из Вашингтонского университета разработали систему «пространственного перевода речи». Она встроена в модифицированные шумоподавляющие наушники и предназначена для ситуаций, когда одновременно говорят несколько человек. Устройство не просто переводит речь, а отслеживает говорящих в пространстве и сохраняет выразительные особенности их голосов.

Технология использует встроенные микрофоны и алгоритмы, которые работают как своеобразный радар. Система определяет, сколько человек говорит рядом, где они находятся и как перемещаются. Она следит за направлением источников звука и обновляет свою модель в реальном времени. В результате каждый голос переводится с небольшой задержкой — от двух до четырех секунд — с сохранением громкости, интонации и направления, откуда он звучит.

Разработчики протестировали систему в десяти разных помещениях и на открытом воздухе. В тесте с 29 участниками большинство выбрало именно этот вариант перевода, в отличие от систем, которые не учитывают пространственные параметры. По словам авторов, при задержке в 3–4 секунды алгоритмы допускали меньше ошибок, чем при попытке ускорить работу до двух секунд.

Интересно, что система работает автономно, без обращения к облачным серверам. Это связано с тем, что технология клонирует голос каждого участника, а значит, требует особого внимания к конфиденциальности данных. Прототип успешно функционирует на устройствах с чипом Apple M2, включая ноутбуки и гарнитуру Vision Pro.

Исследователи отметили, что их система пока работает только с разговорной речью. Сложные термины и профессиональный жаргон пока остаются вне зоны охвата. Тем не менее, обучение модели позволило перевести уже около сотни языков. Следующая задача команды — сократить задержку перевода, не жертвуя точностью.

В США создали систему наушников, переводящую речь сразу нескольких собеседников

📃 Читайте далее на сайте