Два сотрудника Google Research сидели в переговорке и записывали обычный разговор. Один спрашивал: «Куда ты ездил прошлым летом?» Другой отвечал: «Я ездил в Грецию. Это было потрясающе». Потом нейросеть получила эту запись - и продолжила разговор их голосами. «О, это здорово. Я всегда хотел поехать в Грецию. Какое место тебе понравилось больше всего?» - говорит первый голос. «Эм, сложно выбрать только одно любимое место. Но мне действительно понравилась еда. Морепродукты были особенно вкусными» - перебивает второй. Результат показали коллегам, которые хорошо знают обоих. Никто не смог определить, где заканчивается настоящий разговор и начинается сгенерированный. Нейросеть воспроизвела всё: акценты, дыхание, запинки, привычку говорить «угу» и перебивать друг друга - все те черты, которые характеризуют настоящий диалог, в отличие от стилизованного, который вы читаете в романах. Семь лет YouTube - и модель заговорила Модель под названием AudioLM от Google Research учится предсказывать зву