59 подписчиков

Нейросеть скопировала голос человека. Его коллеги не заметили подмены

4 февраля4 фев

3 мин

Два сотрудника Google Research сидели в переговорке и записывали обычный разговор. Один спрашивал: «Куда ты ездил прошлым летом?» Другой отвечал: «Я ездил в Грецию. Это было потрясающе». Потом нейросеть получила эту запись - и продолжила разговор их голосами. «О, это здорово. Я всегда хотел поехать в Грецию. Какое место тебе понравилось больше всего?» - говорит первый голос. «Эм, сложно выбрать только одно любимое место. Но мне действительно понравилась еда. Морепродукты были особенно вкусными» - перебивает второй. Результат показали коллегам, которые хорошо знают обоих. Никто не смог определить, где заканчивается настоящий разговор и начинается сгенерированный. Нейросеть воспроизвела всё: акценты, дыхание, запинки, привычку говорить «угу» и перебивать друг друга - все те черты, которые характеризуют настоящий диалог, в отличие от стилизованного, который вы читаете в романах. Семь лет YouTube - и модель заговорила Модель под названием AudioLM от Google Research учится предсказывать зву

«О, это здорово. Я всегда хотел поехать в Грецию. Какое место тебе понравилось больше всего?» - говорит первый голос. «Эм, сложно выбрать только одно любимое место. Но мне действительно понравилась еда. Морепродукты были особенно вкусными» - перебивает второй.

Результат показали коллегам, которые хорошо знают обоих. Никто не смог определить, где заканчивается настоящий разговор и начинается сгенерированный. Нейросеть воспроизвела всё: акценты, дыхание, запинки, привычку говорить «угу» и перебивать друг друга - все те черты, которые характеризуют настоящий диалог, в отличие от стилизованного, который вы читаете в романах.

Семь лет YouTube - и модель заговорила

Модель под названием AudioLM от Google Research учится предсказывать звук - точно так же, как ChatGPT предсказывает следующее слово. Только вместо текста она работает с чистым аудио. Ей не объясняли правила языка. Не давали грамматику. Не показывали ни одной транскрипции. Она просто слушала семь лет случайных разговоров с YouTube.

Один из первых тестов был простым: модели задали вопрос «Какой твой любимый спорт?» Она выдала три варианта ответа — и все три были произнесены детскими голосами. Почему? Потому что взрослым такой вопрос обычно не задают. Это вопрос для детей. Модель не просто выучила слова — она поняла контекст, кому и когда что говорят.

Автор книги «Что такое интеллект?» Блез Агуэра и Аркас, который возглавлял команду разработчиков, вспоминает: модель в своём изменчивом состоянии «является» широким образцом человечества, а не единичным человеком. Она может говорить голосом ребёнка, взрослого мужчины или пожилой женщины - в зависимости от того, что статистически вероятно в данной ситуации.

Хомский ошибался?

Но самое интересное - не в дипфейках. AudioLM нанесла удар по одной из главных лингвистических теорий XX века. Ноам Хомский полвека утверждал: грамматика зашита в мозг генетически. Существует врождённый «языковой орган», универсальная грамматика, общая для всех людей. Ребёнку остаётся лишь «включить нужные настройки» для конкретного языка.

Красивая теория. Одна проблема: нейронаука не нашла никакого «языкового органа». Универсальная грамматика, общая для всех языков, так и не была обнаружена. А AudioLM показала, что язык можно выучить вообще без каких-либо правил - просто из звука. Без текста, без подсказок, без взаимодействия с учителем.

Ваш ребёнок справляется даже быстрее - потому что у него есть зрение, осязание, запах и мощнейшая мотивация общаться. Но принцип один и тот же: предсказание. Ни ребёнок, ни нейросеть не «учат правила». Они учатся предсказывать, что будет дальше.

Рыба Бабеля

Следующий шаг - модели, которые переводят в реальном времени, сохраняя ваш голос, интонацию и манеру речи. Вы говорите по-русски — собеседник слышит вас по-японски. Вашим голосом. Как «рыба Бабеля» из «Автостопом по Галактике» - только настоящая.

И это не просто развлечение. На Земле говорят на семи тысячах языков, и большинство из них вымирают. В стране Буркина-Фасо — семьдесят языков, но большинство жителей не знают ни одного «большого» языка. Рыба Бабеля на основе нейросетей могла бы дать миллионам людей доступ к образованию, работе и медицине на их родном языке.

Мир, где языковой барьер перестаёт существовать, - это уже не научная фантастика. Это ближайшие годы.

О том, как ИИ учится говорить, слышать и понимать - в книге «Что такое интеллект?» Блеза Агуэры и Аркаса, вице-президента Google Research.