17,7 тыс подписчиков

Новое исследование Vocal Image: 10 тыс. человек и момент, когда TTS «ломает» доверие

11 марта11 мар

6 мин

Новое международное исследование показало любопытную и одновременно неприятную для бизнеса закономерность: человек может спокойно слушать синтетическую речь, но ровно до того момента, пока не поймет, что перед ним не живой диктор. После распознавания «нечеловеческого» происхождения доверие падает, а симпатия к голосу нередко исчезает практически мгновенно. Для компаний, которые используют TTS в службах поддержки, банках, госуслугах и любых публичных системах, это превращается в реальную проблему, а не в теоретическую дискуссию о прогрессе. Читать на сайте: Новое исследование Vocal Image: 10 тыс. человек и момент, когда TTS «ломает» доверие Инициатором проекта выступил эстонский стартап Vocal Image. Команда взяла 20 моделей преобразования текста в речь (TTS) — как от крупных технологических корпораций, так и от более узких разработчиков ИИ — и решила оценивать их не по «сухим» метрикам, а по реакции обычных людей. За месяц в тестировании приняли участие более 10 000 человек. Важный моме

Оглавление

Кто проводил тест и что именно сравнивали
Условия участия
Какие параметры оценивались

Читать на сайте: Новое исследование Vocal Image: 10 тыс. человек и момент, когда TTS «ломает» доверие

Кто проводил тест и что именно сравнивали

Инициатором проекта выступил эстонский стартап Vocal Image. Команда взяла 20 моделей преобразования текста в речь (TTS) — как от крупных технологических корпораций, так и от более узких разработчиков ИИ — и решила оценивать их не по «сухим» метрикам, а по реакции обычных людей.

Условия участия

За месяц в тестировании приняли участие более 10 000 человек. Важный момент: слушателей заранее не предупреждали, что часть (а точнее, весь набор) голосов сгенерирована искусственным интеллектом. Участникам предлагалось реагировать на запись привычным способом — так, как это происходит в реальных приложениях.

можно было поставить «нравится» или «не нравится»;
разрешалось пропускать вариант, который не хочется слушать;
допускалась оценка каждого голоса;
фиксировалась длительность прослушивания и поведение, а не только слова из анкеты.

Какие параметры оценивались

Отдельно стоит отметить: исследование опиралось на 18 характеристик — в том числе на то, звучит ли голос тепло, ясно, уверенно либо, наоборот, монотонно. То есть речь шла не о «похож/не похож на человека» в вакууме, а о комплексном восприятии, которое обычно и формирует доверие к собеседнику.

Главные выводы: цифры и факты

Результаты оказались однозначными: качество синтеза стало выше, но человеческое недоверие никуда не исчезло — оно просто «включается» не сразу.

Обнаружена сильная отрицательная связь между распознаванием ИИ-голоса и симпатией к нему: как только слушатель понимает происхождение записи, отношение ухудшается.
Разрыв между моделями огромный: лучшая система получила оценку примерно в три раза выше, чем голос с минимальным рейтингом.
У разных стран — разная «чуйка»: британцы на 13% чаще распознавали синтетическую речь, чем американцы.
При этом европейские слушатели в целом демонстрировали большую готовность принимать ИИ-голоса.

Почему выбор поставщика превращается в риск

Генеральный директор и основатель Vocal Image Ник Лахойка прямо подчеркнул, что переход на специализированный TTS действительно требует ресурсов, но ошибка в выборе поставщика может стать критическим риском для бренда — особенно там, где продукт держится на доверии. Проще говоря, плохой ИИ-голос люди по-прежнему не принимают, даже если сама идея автоматизации им нравится.

Феномен MiniMax: почему стартап обошел «тяжеловесов»

В рейтинге неожиданно ярко выступили небольшие компании. Китайский стартап MiniMax был признан лучшей голосовой моделью и британскими, и американскими слушателями. А вот Google, Amazon и Microsoft, по итоговой картине, заметно отстали.

Что показала отдельная проверка

В январе команда Vocal Image дополнительно сравнила MiniMax еще с 19 решениями на выборке в 10 000 пользователей, ставя простой вопрос: какому голосу люди доверяют на практике. Выяснилось, что даже без визуального аватара голос MiniMax воспринимается наиболее аутентичным.

86% носителей английского из Великобритании и США оценили MiniMax как вариант самого высокого качества;
британцы особенно часто описывали этот голос как наиболее уверенный;
учитывая, что британская аудитория лучше распознает ИИ, результат выглядит еще более показательным.

Почему Big Tech проигрывает в «последнем километре»

По мнению Лахойки, крупные технологические компании выигрывают масштабом, но уступают в точности. Их модели создаются под миллионы горизонтальных сценариев, где достаточно уровня «нормально», например для прогноза погоды. Но в сферах, где цена ошибки высока (продажи, образование, чувствительные запросы), решают нюансы: ритм, пауза, интонация, уверенность. Если голос звучит синтетически, пользовательский опыт ломается сразу.

Пример из практики

Команда Vocal Image, после переезда из Беларуси в Эстонию в 2020 году, делала высокоточный эстонский синтез речи и столкнулась с тем, что альтернативой фактически была система Microsoft, которая не умела корректно произносить эстонские числительные. Представить выпуск деловых новостей с ошибками в числах не трудно — доверие испаряется моментально.

Как корпорации будут сокращать разрыв

Ожидается, что Big Tech все чаще будет закрывать слабые места поглощениями. Глубоко специализироваться во всех вертикалях, не теряя экономику масштаба, крайне трудно. А вот для стартапов окно возможностей как раз в том, чтобы точечно «докручивать» голос под конкретные дорогие сценарии.

Людям нравятся ИИ-голоса — это усталость или привычка?

В отчете оценивались только синтетические голоса, поэтому напрямую сравнивать их с живыми дикторами нельзя. Но есть факт, который многое объясняет: 66% слушателей не смогли определить, что голос «ненастоящий». То есть качество технологии уже очень высокое.

При этом речь не о том, что пользователи устали от людей. Скорее они привыкают к ИИ-аудио и чаще потребляют контент в ускоренном режиме (1,5–2x), где эмоции отходят на второй план. В таком формате важнее чистота, ясность и отсутствие пауз. Поэтому голоса ИИ нередко выбирают как более быстрый и понятный канал для передачи фактов.

Не «реалистичность», а ясность и уверенность

Один из ключевых выводов исследования: выше оказываются не те голоса, которые просто звучат «как живые», а те, что воспринимаются ясно и уверенно. Особенно это было заметно у ElevenLabs и Descript — их ИИ-голоса многим слушателям казались более «профессиональными», чем некоторые человеческие дикторы из недорогих студий.

Категории TTS и ближайшее будущее

В исследовании выделялись три широкие группы:

ИИ-платформы;
специализированные TTS-компании;
«тяжеловесы» Big Tech.

По итоговой логике отчета, наиболее вероятными лидерами следующего этапа станут ИИ-платформы и узкоспециализированные стартапы. Индустрия уходит дальше простого «генерирования звука»: теперь узкое место — согласовать речь с человеческим восприятием, где важны юмор, эмоции, авторитетность и тонкие поведенческие сигналы.

Тема дипфейков и позиция разработчиков

Отдельный блок обсуждения был посвящен «темной стороне» технологий: сегодня одной фотографии или видео из соцсетей достаточно, чтобы собрать весьма реалистичный дипфейк, а клонирование голоса занимает считанные секунды. При этом тезис разработчиков звучит жестко: не существует «плохих» или «хороших» технологий, есть разные способы использования.

Vocal Image заявляет, что применяет данные для обучения софту мягким навыкам и выдачи практической обратной связи, а не для создания клонов людей. Их фокус — помощь пользователям в улучшении коммуникации.

Почему это вообще нужно рынку

Тревожность при публичных выступлениях — глобальная проблема: с ней сталкиваются более 200 миллионов человек. Классический коучинг дорогой и недоступен большинству. При этом ИИ-коучинг, по заявлению команды, может быть до 280 раз экономически эффективнее традиционного обучения руководителей: вместо набора специалистов пользователь получает ежедневную практику и структурированную обратную связь в одном решении. Для сравнения, программы executive-коучинга оцениваются в 7 000–25 000 долларов на сотрудника в год, тогда как годовая подписка на приложение в США стоит 89,99 доллара.

Популярные статьи:

Разработчики WhatsApp рассказали, почему приложение MAX оказалось небезопасным

Специалисты рассказали, почему на самом деле не работает WhatsApp

Россиянам напомнили, за что в СССР ценили мопеды «Рига» и «Карпаты»

Водителям раскрыли, почему компании отказались от чугунных ДВС, несмотря на их надежность

Кибербезопасник объяснил, зачем мошенники просят установить приложение MAX