Найти тему
Нейрофинанс

Почему нейросети учат люди, а говорят как роботы из кино шестидесятых

Синтез речи – одна из двух сфер, где нейросетки реально дают неплохие результаты. Не сказать, чтобы фантастические. Все эти дипфейки – ерунда на постном масле. Но за порогом восхищения.

Как там говорили древние? Восхищение всегда содержит недостаток понимания. Подобное говорит с подобным, но восхищение должно преодолеть пропасть.

Нейросетки в синтезе речи из текста эту пропасть почти преодолели. Да, смешно звучит, как перешагнуть пропасть в два шага. Но увы, это факт. Обещанного говорящего электронного болванчика пока не получилось.

Но как же, половина крупных компаний в телефоны этих болванчиков прикрутили. Некоторые так прямо с первых слов не отличишь от человека. А вот со вторых отличишь и очень сильно.

Ещё более заметно на примере вещей художественных. Те же электронные книжки активно и на Литресе, и на Ридеро стали читать роботы. Получается, некоторым образом, весьма ужасно.

Вопросом синтеза речи занимался довольно плотно. Перепробовал десятка полтора коммерческих решений.

Да что там, даже сам пытался пару нейросеток обучать. Благо на гитхабе таких недообученных говорильных нейросеток в количестве. Бери, да домучивай их.

Как в старом анекдоте про двух сильно пьющих друзей. Которые пытаются последний огурец из банки с рассолом выловить. А тот на дрожащую вилку не даётся. Фиг бы ты его поймал, если бы я его первый не замучал!

Удивительная штука. Коммерческие, дорогие, слопавшие огромные мощности на обучение модели синтеза речи – дребезжат металлом как робот из кино шестидесятых. Что ни делай, та самая «зловещая долина» в полный рост. И привыкнуть нельзя.

Ну вот смотрите, айтишный гигант Гугл. У него довольно приличные модельки, на разные голоса. Даже гендернонейтральная фигня есть. Когда непонятно, мальчик или девочка читает. Как у них в трендах теперь положено.

Но слушать книжки, лично я, Гуглом не могу. Интонации робота. Каждое предложение одинаково. И металлом звенит, хоть облачная версия, хоть оффлайновая.

У них и коммерческие голоса не лучше. Пробовал. Разница только в том, что за каждый символ платить нужно. Но это даже не близко к естественной речи.

Есть неплохая говорилка в модном браузере Эдже. Но ровно та же проблема. Одно предложение звучит неплохо. А вот абзац не получается, получается склейка из предложений. Ухо (вернее мозги) страдают от такого чтения сильно.

Алиса от Яндекса неплоха, как и мужская её реализация. Правда, мужской голос в яндекс-браузере, как будто, слегка навеселе. Слушаешь как выступление душевнобольного. Я такое не выдерживаю.

Но опять же, от придурковатых интонаций Алисы очень быстро становится неуютно. Раздражает глуповатой интонацией блондинки.

Есть ещё вполне отечественный Центр речевых технологий. Кажется, они недавно продались Сбербанку. Вот у них нейросетевые модельки сначала были просто отличные. Но решить проблему связности речи не смогли и они.

Там каждое предложение заканчивается взлетом интонации. Слушаешь вечно удивлённого дяденьку. Голос взрослый, а интонации изумлённого ребёнка лет пяти.

Еще с десяток разных моделек пробовал. Везде одни и те же проблемы. Нет, новые модели синтеза говорить стали чистенько. Но чем чище говорят, тем глубже заводят в «зловещую долину» и тем меньше похожа речь на настоящую.

Поразительно, но одна из лучших реализаций была в старой бесплатной модельке Яндекса. Где были все эти Самохваловы, Левитаны и прочие Ермилы. Я даже догадываюсь почему так.

Озвучка получалась грязноватая. Если смотреть диаграмму звука, там слов не разобрать. Вместо «кардиограммы» такая полоса шума. И опять знаю почему.

Зато звучит почти как естественная речь. И интонации как-то плавно перетекают. И даже, будто вздохи слышатся между словами.

Почти уверен, что лучше не сделать в силу самой природы нейросетки. Тут дело не в дефиците мощностей. И не в модной архитектуре сетки. Закон больших чисел увы.

Уже лет двести известно – для по-настоящему стохастических процессов есть только один метод. То есть, когда у Вас куча несвязанных факторов действуют и нет единого направления, сдвигающего процесс.

Метод этот – линейная модель. Не какая-то хитрая экспонента, не логарифмические изыски. Самая примитивная аппроксимация.

Пусть она будет условной плоскостью в сотне измерений, но это именно линейная или близкая к ней моделька. Она везде будет по чуть-чуть ошибаться, но в среднем будет неплохо.

Все эти звенящие роботы – итог переобученности нейросетевых моделей. В погоне за качеством звука естественным образом теряется естественность речи.

Там, где старая сетевая моделька Яндекса одинаково плохо воспроизводила все звуки… Парадоксально, но в итоге получалась связная, пусть и загрязнённая шумами, речь. Почти человеческая речь.

Когда же берёмся за модельки коммерческие… Что ж, звучание чистое, но слушать долго такое просто невозможно. Как о железную стенку мячиком стучишь. Даже если никакого металлического отзвука, на самом деле, нет. Его и нет, а привкус металла остался.

А теперь ещё более страшное скажу. Скорее всего, на базе нейросетевой модели естественную говорилку сделать вообще нельзя. Потому как противоречие между качеством и естественностью - оно в самой сетевой модели прошито.

Как детская качалочка в парке. В одну сторону качнётся, другая поднимается. Так что дело вовсе не в подборе всё лучших и лучших датасетов. Структурная тут проблема.

Так и у нейросетей есть своя виртуальная пропасть. Которую никак в два шага не одолеть.