7295 подписчиков

Похожие звуки вместо точных: Apple ускорила ИИ в 1,4 раза

3 февраля3 фев

3 мин

Группа исследователей из Apple и Тель-Авивского университета разработала метод ускорения синтеза речи на основе искусственного интеллекта без ущерба для разборчивости. В новой научной работе специалисты описывают оригинальный подход к генерации речи из текста. Несмотря на разнообразие существующих методов преобразования текста в речь, исследователи сосредоточились на авторегрессионных моделях, которые генерируют речевые токены последовательно, один за другим. Если вы знакомы с принципами работы больших языковых моделей, то наверняка слышали об авторегрессионных системах – они предсказывают следующий токен на основе всех предыдущих. Авторегрессионная генерация речи работает по схожему принципу, но токены представляют собой аудиофрагменты, а не слова или символы. При всей эффективности этого способа он создаёт вычислительное узкое место, как объясняют исследователи. Иными словами, авторегрессионные речевые модели могут быть чрезмерно придирчивыми: они часто отклоняют прогнозы, которые бы

Оглавление

Метод принципиального укрупнения (PCG)
Что это может означать на практике

Несмотря на разнообразие существующих методов преобразования текста в речь, исследователи сосредоточились на авторегрессионных моделях, которые генерируют речевые токены последовательно, один за другим. Если вы знакомы с принципами работы больших языковых моделей, то наверняка слышали об авторегрессионных системах – они предсказывают следующий токен на основе всех предыдущих.

Авторегрессионная генерация речи работает по схожему принципу, но токены представляют собой аудиофрагменты, а не слова или символы. При всей эффективности этого способа он создаёт вычислительное узкое место, как объясняют исследователи.

Иными словами, авторегрессионные речевые модели могут быть чрезмерно придирчивыми: они часто отклоняют прогнозы, которые были бы вполне приемлемы, просто потому, что они не соответствуют точному токену, ожидаемому моделью. Это, в свою очередь, всё замедляет.

Метод принципиального укрупнения (PCG)

Решение Apple основано на простой идее: множество различных токенов могут производить практически идентичные звуки. Опираясь на этот принцип, исследователи группируют похожие по звучанию речевые токены, создавая более гибкий этап проверки.

Проще говоря, вместо того чтобы рассматривать каждый возможный звук как полностью уникальный, подход Apple позволяет модели принимать токен, принадлежащий к той же общей группе «акустического сходства».

По сути, PCG состоит из двух моделей: меньшая модель быстро предлагает речевые токены, а вторая, более крупная модель-судья проверяет, попадают ли эти токены в правильную акустическую группу, прежде чем принять их. Результатом является система, которая адаптирует концепции спекулятивного декодирования к большим языковым моделям, генерирующим акустические токены, что ускоряет синтез речи при сохранении разборчивости.

Что касается результатов, исследователи показывают, что PCG ускорил генерацию речи примерно на 40% – существенное улучшение, учитывая, что применение стандартного спекулятивного декодирования к речевым моделям практически не улучшало скорость.

При этом PCG удерживал частоту ошибок распознавания слов на более низких уровнях, чем предыдущие методы, ориентированные на скорость, сохранял сходство с голосом диктора и превзошёл прежние подходы, достигнув показателя естественности 4,09 (стандартная человеческая оценка от 1 до 5, определяющая, насколько естественно звучит речь).

В одном из стресс-тестов (проверка внутригрупповой замены токенов) исследователи заменили 91,4% речевых токенов альтернативами из той же акустической группы, и аудио всё ещё сохранило качество – с увеличением частоты ошибок распознавания слов всего на +0,007 и снижением сходства с диктором на −0,027.

Что это может означать на практике

Хотя исследование не обсуждает конкретные применения результатов в продуктах и платформах компании, этот подход может оказаться актуальным для будущих голосовых функций, где необходим баланс между скоростью, качеством и эффективностью.

Важно отметить, что этот метод не требует переобучения целевой модели, поскольку представляет собой изменение на этапе декодирования. Другими словами, это корректировка, которую можно применить к существующим речевым моделям на этапе вывода, без необходимости переобучения или изменения архитектуры.

Более того, PCG требует минимальных дополнительных ресурсов – всего около 37 МБ памяти для хранения групп акустического сходства, что делает метод практичным для развёртывания на устройствах с ограниченной памятью.

Узнать больше о PCG, включая подробные технические детали о наборах данных и дополнительный контекст о методах оценки, можно в оригинальной научной работе исследователей.

Apple

384,5 тыс интересуются