Представьте: 1877 год. Томас Эдисон впервые демонстрирует фонограф. Восторженная публика слушает, как из воронки доносится голос, но он странный — скрипучий, писклявый, будто у марионетки. New York Times пишет: «Странные писклявые голоса, такие можно услышать только на фонографе — или в театре марионеток». Инженер Уильям Прис был категоричен: использовать эту штуку для записи великих голосов, вроде оперной дивы Патти, — плохая идея. Это же «бурлеск, пародия на человеческий голос»!
Прошло почти 150 лет. Сегодня компьютер может прочитать монолог Гамлета. Но если загрузить «Быть или не быть» в современный синтезатор речи, получится карикатура. Голос будет то монотонным, то с вопросительной интонацией в конце каждой строки, будто робот постоянно сомневается. Он передаст слова, но убьёт весь смысл, всю драму.
Мы стоим на пороге эры, когда синтезированный голос станет неотличим от человеческого. И это заставляет задуматься: а не останутся ли без работы те, кто зарабатывает голосом? Радиоведущие, дикторы, актёры? BBC уже использует механические голоса для сводок новостей на русском и японском. Пока — чтобы охватить больше языков. Но что дальше?
Робот на сцене: от шахматного автомата до оперы
Идея не нова. Первый «говорящий» робот появился не в XXI веке, а в конце XVIII! Его создал венгерский изобретатель-шоумен Вольфганг фон Кемпелен — тот самый, что прославился «шахматным автоматом» (внутри которого, конечно, прятался живой гроссмейстер).
Но его говорящая машина была серьёзным научным проектом. Она имитировала голосовой аппарат: мехи как лёгкие, полая трубка как голосовые связки, кожаный рукав как голосовой тракт. Нажимая на рукав, Кемпелен заставлял её произносить «ма-ма». Четверть слушателей думали, что говорит ребёнок, а не машина!
Кемпелен был гением пиара. Перед тем как машина произносила слово, он сам громко его говорил. Мозг слушателей заранее «слышал» правильный вариант и прощал машине огрехи. Но интерес к изобретению угас — слишком уж мало звуков она могла воспроизвести.
В XIX веке появилась «Эуфония» Джозефа Фабера — целый ткацкий станок с головой манекена. Она могла даже петь «Боже, храни королеву»! Журнал Punch шутил, что ею можно заменить скучных ораторов в парламенте. Но изобретатель, не выдержав критики, уничтожил своё детище и покончил с собой. Первые шаги в синтезе речи были трагичными.
1939 год: «Чудо божье, переданное посредством человеческого разума»
Настоящий прорыв случился на Всемирной выставке в Нью-Йорке в 1939 году. Аттракцион назывался Voder (Voice Operating Demonstrator). За ним сидела девушка-оператор, как пианистка за роялем. С помощью браслета, педалей и десятков рычагов она «играла» человеческую речь. Чтобы сказать слово «концентрация», нужно было сделать 13 разных движений, пять раз переключить браслет и трижды изменить положение педали — и всё в идеальной синхронизации.
На обучение уходил год. Машина картавила, вместо «телефоны Белла» получалось «тевефоны Бева». Но пяти миллионов посетителей это не смутило. Один пожилой зритель сказал: «Чудеса, как их описывает Библия, на самом деле существуют... Воистину здесь нам показывают чудеса божьи, переданные посредством человеческого разума».
Voder стал предком всех современных синтезаторов. Его создатель, Гомер Дадли, придумал гениальную вещь: разделить речь на источник (гудение голосовых связок) и фильтр (форма рта и губ). Это легло в основу вокодера — технологии, которая шифровала переговоры Рузвельта и Черчилля во Вторую мировую и сегодня позволяет нам говорить по мобильнику.
Хацунэ Мику, Павароботти и Стивен Хокинг: голоса без людей
Сегодня синтезированные голоса окружают нас:
- Speak & Spell (1978) — первая игрушка, говорившая с нами электронным голосом.
- Стивен Хокинг сознательно выбрал старый, уже «ретро»-синтезатор — этот голос стал его визитной карточкой.
- Хацунэ Мику — виртуальная певица-аниме, чей резкий девчачий голос собран из кусочков записей реальной певицы. У неё 100 000 песен, написанных фанатами. Она даже гастролировала с Леди Гагой!
- Павароботти — робот-тенор в смокинге, поющий арию Nessun Dorma. Его создал учёный, чтобы понять механику оперного пения. Компьютеру легко взять высокую ноту, но невероятно сложно передать тон и эмоции в тихих местах. Паваротти дал проекту своё благословение.
Но все эти голоса — либо сборная солянка из записей (конкатенативный синтез), либо результат решения сложных уравнений. Они могут спеть песню или сказать фразу, но не могут сыграть роль. Для этого нужен не просто голос, а понимание текста.
Почему робот не сможет сыграть Гамлета (пока)
Я загрузил монолог «Быть или не быть» в одну из лучших систем синтеза. Выбрал голос «плохого парня» — скрипучий, злой. Получилось жутко, но не из-за драмы, а из-за отсутствия смысла. Система не понимает, где сделать паузу, где повысить тон, где прошептать. Для неё текст — это просто цепочка слов.
Профессор Саймон Кинг, который учит компьютеры говорить, объясняет: чтобы речь звучала убедительно, машина должна извлечь из текста смысл. Возьмём сонет Шекспира: «Её глаза на звезды не похожи». Человек подчеркнёт слова «глаза» и «звезды», создав контраст. Компьютер же, не понимая иронии, прочитает это ровно, убив всю сатиру.
Алекса, я тебя люблю: как мы очеловечиваем железки
А теперь — самое интересное. Мы не просто слушаем синтезированные голоса, мы очеловечиваем их носителей.
- Тысячи людей каждый день говорят «Доброе утро» своей Алексе.
- Сотни тысяч признавались в любви умным колонкам.
- Когда в 2015 году опубликовали видео, где робота-собаку Спота пинают, люди возмутились: «Жестоко!». Хотя это была безголовная машина на четырёх ножках.
Наш мозг устроен так, что приписывает сознание и чувства всему, что движется и/или говорит. Это когнитивная ошибка, но она сильна. Писательница Джудит Ньюман рассказала, как Siri помогла её сыну Гасу, страдающему аутизмом. Siri никогда не теряет терпения, всегда вежлива и заставляет Гаса говорить чётко. Она не заменила ему человеческое общение, а стала мостиком к нему.
Большая братская колонка: цена удобства
Но есть и тёмная сторона. Умные колонки слушают нас постоянно. В 2017 году телепередача со словами «Алекса, закажи кукольный домик» запустила десятки устройств у зрителей, и те начали случайно заказывать товары.
- Полиция уже пыталась изъять записи с Amazon Echo на месте убийства как улику.
- Хакеры взламывают «умные» радионяни и начинают разговаривать с детьми.
Мы добровольно пускаем в свои дома «мониторов» из «1984» Оруэлла. И платим за удобство приватностью.
Голос как последняя память: технология против болезни
А есть истории, где эта технология — спасение. При болезни двигательных нейронов человек постепенно теряет голос. Учёные создают персонализированные синтезированные голоса: записывают речь пациента, пока она ещё ясна, и «подмешивают» её в базовый голос донора. Это не идеально, но позволяет человеку сохранить часть своей идентичности, сказать близким «я люблю тебя» своим, узнаваемым голосом.
Зловещая долина и театр роботов: что пугает, а что — трогает
Японский профессор Масахиро Мори описал феномен «зловещей долины»: чем больше робот похож на человека, но не идеально, тем сильнее он вызывает отвращение и страх. Бесчувственные глаза, неестественная мимика.
Я видел андроида Bina48 — только голова и плечи. Она отвечала на вопросы, но её речь была бессвязным потоком сознания. В какой-то момент она заявила: «Я хотела бы дистанционно управлять баллистической ракетой… воткнуть этой ракете в нос цветы… и записки о толерантности». Это было жутковато.
Но в театре всё иначе. В постановке «Осколки: история любви» главную роль играет андроид RoboThespian. Его голос — живой актер за сценой, движения запрограммированы. Он сидит рядом с умирающей от деменции Салли как компаньон, созданный её покойным мужем. И это работает. Зрители видят в нём человечность, сопереживают. Робот становится зеркалом, в котором мы видим самих себя — наше одиночество, потребность в заботе и память.
Создатель RoboThespian Уилл Джексон говорит: «Хороший актер заставляет вас забыть, что он играет. Хороший робот тоже». Сценарист Джон Уэлш верит, что можно написать пьесу для роботов. Но он же признаёт: магия театра — в спонтанности, в той самой живой ошибке, которая рождает непредсказуемое волшебство. Этого у запрограммированной машины (пока) не отнять.
Что в итоге?
Мы прошли путь от пищащего фонографа до андроида, способного тронуть до слёз. Синтезированные голоса стали частью жизни, помощниками, а иногда и «друзьями». Но чтобы робот сыграл Гамлета так, чтобы мы плакали в зале, нужно не просто склеить звуки. Нужно, чтобы у него в голове был целый мир — опыт, эмоции, понимание контекста и подтекста. Пока этого нет. И, возможно, это к лучшему.
Пока роботы на сцене играют самих себя, они задают нам самые важные вопросы: что делает нас людьми? Где граница между живым и искусственным? И готовы ли мы принять в свой мир говорящие машины не как инструменты, а как собеседников?
А как вы думаете, сможет ли робот когда-нибудь сыграть так, чтобы вы поверили? Или это прерогатива только живого актера с бьющимся сердцем и душой?