Вслед за набравшей популярность технологией от Google, которая позволяет озвучивать видео (автоматический дубляж), книжные издательства пытаются внедрять технологии AI для автоматического создания аудиокниг.
Подробнее здесь: https://www.kommersant.ru/doc/5783327
Смогут ли такие алгоритмы ускорить и удешевить производство аудиоконтента?
Основная проблема автоматического чтения текстов – интонирование и правильная расстановка смысловых ударений, в чем легко можно убедиться, послушав дубляж роликов на YouTube. При художественном чтении профессиональным чтецом отдельные фрагменты текста произносятся с большей или меньшей экспрессией, а не просто более громко или тихо. Через интонирование человек на слух может определить различные эмоциональные состояния другого человека: страх, радость, грусть, восторг и прочее. На уровне отдельных предложений эта задача легко решается за счет расстановки автором в тексте знаков препинания. Достаточно легко разработать алгоритм, произносящий предложение вопросительно или восклицательно, если автор текста снабдил предложение соответствующими знаками. Гораздо труднее даже на уровне предложения разработать алгоритм, осуществляющий, например, произнесение фразы, сопровождающейся сатирическим восклицательным знаком. Есть и такой. Вот он, если не знали: (!), восклицательный знак в скобках.
Трудность в том, что авторы, расставляя служебные знаки в тексте, всегда исходят из того, что читатель находится в контексте произведения и понимает, о чем идет речь. И если контекст повествования грозный, то восклицательный знак следует трактовать как угрозу, а если текст лирический, то восклицательный знак будет означать уже страсть. На сегодняшний момент нет никаких сложностей разработать алгоритм, который бы реализовывал все эти интонации, если текст будет снабжен при помощи человека-редактора и режиссера специальными диакретическими знаками. Собственно, набор этих знаков и будет своеобразной программой интонирования. Но человек-режиссер будет погружен в контекст произведения за счет собственного человеческого свойства понимать смысл текста.
Искусственный интеллект на данном этапе не способен понимать смысл теста, но он может соотносить тексты по похожим классам – грустным, веселым, лирическим. Такие наработки анализа текстов существуют в лингвистике. Их вполне можно алгоритмизировать. Но без понимания контекста невозможно будет отличить, например, сатиру от какого-нибудь серьезного или абсурдного повествования. Подобные попытки анализа контента осуществлялись в 3D-телевизорах, которые «налету» пытались преобразовать плоскую картинку в объемную. Эта технология была весьма популярна лет 10 назад, но, к сожалению, полностью провалилась – алгоритмы не справлялись с распознаванием контента в контексте повествования.
Возможно, простые повествовательные тексты AI и сможет прочитать на уровне близком к художественному, но при чтении сложных драматических текстов – фальшь исполнения будет очевидна даже неискушенному слушателю. Исправление интонаций тогда потребует внесения редактором диакритических знаков, то есть прямого ручного, а не адаптивного программирования.
Однако, дешевизна такого подхода, когда автоматическая бубнилка может за час озвучить столько текстов, сколько профессиональный человек-чтец не сможет и за год, в самое ближайшее время приведет к тому, что массовая профессия чтеца исчезнет. AI, во-первых, уже может копировать голос любого человека (технология Deep Fake), во-вторых, подзабытые уже вокалоиды от Yamaha могут генерировать любой голос, который понравится публике и будет продаваться баз необходимости роялти живому человеку-владельцу настоящего природного голоса.
Эта проблема на самом деле гораздо глубже и серьезнее. Выше я говорил только о технических аспектах озвучивания. Более серьёзные последствия внедрения искусственного интеллекта рассмотрены здесь:
это моя большая статья в академическом издании http://digital-economy.ru/images/easyblog_articles/1258/DE-2025-01-06.pdf
Но поскольку читают эти журналы только в Академии наук, то статью перепечатали энтузиасты здесь: http://www.oboznik.ru/?p=82020
Там можно почитать полную версию статьи с экрана, разделенную на три смысловые части. Первую часть можно почитать здесь:
https://dzen.ru/a/Z-VOQbS4yTPcQvmF
Вторую часть можно почитать здесь:
https://dzen.ru/a/Z-VWDp5ZgCwrb7Az
Третью здесь: