Новое международное исследование показало любопытную и одновременно неприятную для бизнеса закономерность: человек может спокойно слушать синтетическую речь, но ровно до того момента, пока не поймет, что перед ним не живой диктор. После распознавания «нечеловеческого» происхождения доверие падает, а симпатия к голосу нередко исчезает практически мгновенно. Для компаний, которые используют TTS в службах поддержки, банках, госуслугах и любых публичных системах, это превращается в реальную проблему, а не в теоретическую дискуссию о прогрессе.
Читать на сайте: Новое исследование Vocal Image: 10 тыс. человек и момент, когда TTS «ломает» доверие
Кто проводил тест и что именно сравнивали
Инициатором проекта выступил эстонский стартап Vocal Image. Команда взяла 20 моделей преобразования текста в речь (TTS) — как от крупных технологических корпораций, так и от более узких разработчиков ИИ — и решила оценивать их не по «сухим» метрикам, а по реакции обычных людей.
Условия участия
За месяц в тестировании приняли участие более 10 000 человек. Важный момент: слушателей заранее не предупреждали, что часть (а точнее, весь набор) голосов сгенерирована искусственным интеллектом. Участникам предлагалось реагировать на запись привычным способом — так, как это происходит в реальных приложениях.
- можно было поставить «нравится» или «не нравится»;
- разрешалось пропускать вариант, который не хочется слушать;
- допускалась оценка каждого голоса;
- фиксировалась длительность прослушивания и поведение, а не только слова из анкеты.
Какие параметры оценивались
Отдельно стоит отметить: исследование опиралось на 18 характеристик — в том числе на то, звучит ли голос тепло, ясно, уверенно либо, наоборот, монотонно. То есть речь шла не о «похож/не похож на человека» в вакууме, а о комплексном восприятии, которое обычно и формирует доверие к собеседнику.
Главные выводы: цифры и факты
Результаты оказались однозначными: качество синтеза стало выше, но человеческое недоверие никуда не исчезло — оно просто «включается» не сразу.
- Обнаружена сильная отрицательная связь между распознаванием ИИ-голоса и симпатией к нему: как только слушатель понимает происхождение записи, отношение ухудшается.
- Разрыв между моделями огромный: лучшая система получила оценку примерно в три раза выше, чем голос с минимальным рейтингом.
- У разных стран — разная «чуйка»: британцы на 13% чаще распознавали синтетическую речь, чем американцы.
Почему выбор поставщика превращается в риск
Генеральный директор и основатель Vocal Image Ник Лахойка прямо подчеркнул, что переход на специализированный TTS действительно требует ресурсов, но ошибка в выборе поставщика может стать критическим риском для бренда — особенно там, где продукт держится на доверии. Проще говоря, плохой ИИ-голос люди по-прежнему не принимают, даже если сама идея автоматизации им нравится.
Феномен MiniMax: почему стартап обошел «тяжеловесов»
В рейтинге неожиданно ярко выступили небольшие компании. Китайский стартап MiniMax был признан лучшей голосовой моделью и британскими, и американскими слушателями. А вот Google, Amazon и Microsoft, по итоговой картине, заметно отстали.
Что показала отдельная проверка
В январе команда Vocal Image дополнительно сравнила MiniMax еще с 19 решениями на выборке в 10 000 пользователей, ставя простой вопрос: какому голосу люди доверяют на практике. Выяснилось, что даже без визуального аватара голос MiniMax воспринимается наиболее аутентичным.
- 86% носителей английского из Великобритании и США оценили MiniMax как вариант самого высокого качества;
- британцы особенно часто описывали этот голос как наиболее уверенный;
- учитывая, что британская аудитория лучше распознает ИИ, результат выглядит еще более показательным.
Почему Big Tech проигрывает в «последнем километре»
По мнению Лахойки, крупные технологические компании выигрывают масштабом, но уступают в точности. Их модели создаются под миллионы горизонтальных сценариев, где достаточно уровня «нормально», например для прогноза погоды. Но в сферах, где цена ошибки высока (продажи, образование, чувствительные запросы), решают нюансы: ритм, пауза, интонация, уверенность. Если голос звучит синтетически, пользовательский опыт ломается сразу.
Пример из практики
Команда Vocal Image, после переезда из Беларуси в Эстонию в 2020 году, делала высокоточный эстонский синтез речи и столкнулась с тем, что альтернативой фактически была система Microsoft, которая не умела корректно произносить эстонские числительные. Представить выпуск деловых новостей с ошибками в числах не трудно — доверие испаряется моментально.
Как корпорации будут сокращать разрыв
Ожидается, что Big Tech все чаще будет закрывать слабые места поглощениями. Глубоко специализироваться во всех вертикалях, не теряя экономику масштаба, крайне трудно. А вот для стартапов окно возможностей как раз в том, чтобы точечно «докручивать» голос под конкретные дорогие сценарии.
Людям нравятся ИИ-голоса — это усталость или привычка?
В отчете оценивались только синтетические голоса, поэтому напрямую сравнивать их с живыми дикторами нельзя. Но есть факт, который многое объясняет: 66% слушателей не смогли определить, что голос «ненастоящий». То есть качество технологии уже очень высокое.
При этом речь не о том, что пользователи устали от людей. Скорее они привыкают к ИИ-аудио и чаще потребляют контент в ускоренном режиме (1,5–2x), где эмоции отходят на второй план. В таком формате важнее чистота, ясность и отсутствие пауз. Поэтому голоса ИИ нередко выбирают как более быстрый и понятный канал для передачи фактов.
Не «реалистичность», а ясность и уверенность
Один из ключевых выводов исследования: выше оказываются не те голоса, которые просто звучат «как живые», а те, что воспринимаются ясно и уверенно. Особенно это было заметно у ElevenLabs и Descript — их ИИ-голоса многим слушателям казались более «профессиональными», чем некоторые человеческие дикторы из недорогих студий.
Категории TTS и ближайшее будущее
В исследовании выделялись три широкие группы:
- ИИ-платформы;
- специализированные TTS-компании;
- «тяжеловесы» Big Tech.
По итоговой логике отчета, наиболее вероятными лидерами следующего этапа станут ИИ-платформы и узкоспециализированные стартапы. Индустрия уходит дальше простого «генерирования звука»: теперь узкое место — согласовать речь с человеческим восприятием, где важны юмор, эмоции, авторитетность и тонкие поведенческие сигналы.
Тема дипфейков и позиция разработчиков
Отдельный блок обсуждения был посвящен «темной стороне» технологий: сегодня одной фотографии или видео из соцсетей достаточно, чтобы собрать весьма реалистичный дипфейк, а клонирование голоса занимает считанные секунды. При этом тезис разработчиков звучит жестко: не существует «плохих» или «хороших» технологий, есть разные способы использования.
Vocal Image заявляет, что применяет данные для обучения софту мягким навыкам и выдачи практической обратной связи, а не для создания клонов людей. Их фокус — помощь пользователям в улучшении коммуникации.
Почему это вообще нужно рынку
Тревожность при публичных выступлениях — глобальная проблема: с ней сталкиваются более 200 миллионов человек. Классический коучинг дорогой и недоступен большинству. При этом ИИ-коучинг, по заявлению команды, может быть до 280 раз экономически эффективнее традиционного обучения руководителей: вместо набора специалистов пользователь получает ежедневную практику и структурированную обратную связь в одном решении. Для сравнения, программы executive-коучинга оцениваются в 7 000–25 000 долларов на сотрудника в год, тогда как годовая подписка на приложение в США стоит 89,99 доллара.
Популярные статьи:
Разработчики WhatsApp рассказали, почему приложение MAX оказалось небезопасным
Специалисты рассказали, почему на самом деле не работает WhatsApp
Россиянам напомнили, за что в СССР ценили мопеды «Рига» и «Карпаты»
Водителям раскрыли, почему компании отказались от чугунных ДВС, несмотря на их надежность
Кибербезопасник объяснил, зачем мошенники просят установить приложение MAX