Добавить в корзинуПозвонить
Найти в Дзене
Интриги книги

Проект Гутенберг создает аудиокниги с помощью ИИ.

Forbes рассказывает, как ИИ помогает озвучивать книги общим объемом в 35 000 часов.
В 2022 году расходы на аудиокниги в США выросли на 70%, при этом издатели заработали 1,8 миллиарда долларов. Ожидается, что к 2032 году мировая индустрия аудиокниг достигнет примерно 39,1 миллиарда долларов.
Project Gutenberg — это некоммерческая организация, которая добивается демократизации литературы, чтобы любой человек во всем мире мог с легкостью познакомиться с той ее частью, которая находится в свободном доступе. Проект Гутенберг осуществляет поиск книг, являющихся общественным достоянии, и их сбор в централизованном месте, доступном каждому.
Группа, состоящая исключительно из добровольцев, взаимодействуя с Массачусетским технологическим институтом (MIT) и Microsoft, занимается созданием аудиокниг из коллекции Гутенберга общей продолжительностью более 35 000 часов. При этом исследователи использовали искусственный интеллект (ИИ), с помощью которого воспроизводятся реалистичные голоса, преобраз

Forbes рассказывает, как ИИ помогает озвучивать книги общим объемом в 35 000 часов.

В 2022 году расходы на аудиокниги в США выросли на 70%, при этом издатели заработали 1,8 миллиарда долларов. Ожидается, что к 2032 году мировая индустрия аудиокниг достигнет примерно 39,1 миллиарда долларов.

Project Gutenberg — это некоммерческая организация, которая добивается демократизации литературы, чтобы любой человек во всем мире мог с легкостью познакомиться с той ее частью, которая находится в свободном доступе. Проект Гутенберг осуществляет поиск книг, являющихся общественным достоянии, и их сбор в централизованном месте, доступном каждому.
Группа, состоящая исключительно из добровольцев, взаимодействуя с Массачусетским технологическим институтом (MIT) и Microsoft, занимается созданием аудиокниг из коллекции Гутенберга общей продолжительностью более 35 000 часов. При этом исследователи использовали искусственный интеллект (ИИ), с помощью которого воспроизводятся реалистичные голоса, преобразуя текст в речь за рекордно короткое время.
Исследователи заявили, что, используя всего лишь пять секунд образца голоса пользователя, технология может создавать персонализированные аудиокниги с этим голосом.
По словам Mark T. Hamilton, доктора компьютерных наук, данная инициатива направлена ​​на демократизацию доступа к литературе для людей с нарушениями зрения, изучающих языки, детей и любителей аудиокниг.

«Проект Гутенберг предоставил более 60 тысяч книг, которые доступны для бесплатного и открытого обмена. Однако эти книги представлены лишь в электронном виде (только текст), поэтому людям с плохим зрением сложно взаимодействовать с этим замечательным контентом: читать видимый текст может стать проблемой», — говорит Гамильтон. - «Для чтения книг вслух мы использовали лучшую речевую систему ИИ, которую смогли получить, чтобы больше мировой литературы было доступно сообществу с плохим зрением».

Одной из проблем при автоматизированном производстве аудиокниг является отказ от роботизированного повествования. Гамильтон говорит, что ИИ решил эту задачу: «Новые системы синтеза речи обучены звучать практически по-человечески. Современные системы используют большие  сети, преобразователи, подобные тем, которые используются в GPT, обученные на миллионах часов речевых образцов. Они не только умеют четко и внимательно произносить слова, но и учатся произносить слова, как это делают люди. Например, произносить «w» «w» «w» «точка» «название веб-сайта» вместо «www» [Пауза] «название веб-сайта».
«Другие примеры включают распознавание телефонных номеров и чтение их так, как это делает человек, группируя цифры для простоты понимания, — говорит Гамильтон. - Есть миллион крошечных вещей, которые мы делаем во время разговора и о которых мы не задумываемся. Однако для алгоритмов это нетривиальные контекстно-зависимые изменения в их речи. Обучение этим алгоритмам с помощью миллионов часов реальной человеческой речи помогает им научиться всем этим маленьким трюкам».
«Если бы вам пришлось слушать, как алгоритм читает оглавление, прежде чем он прочитает книгу, вы бы разозлились; если бы он читал номера страниц, вы были бы сбиты с толку; если бы он прочитал юридический текст в начале книги, вы могли бы задаться вопросом, а ту ли книгу вы выбрали», — добавляет Гамильтон. Project Gutenberg работает над обнаружением такого рода контента для его фильтрации.

Роль ИИ.
Проект Гутенберг с помощью ИИ уже проанализировал и озвучил более 5000 книг.
При этом ИИ используется в двух ключевых местах. В коллекции каждая электронная книга имеет свой уникальный формат: некоторые начинаются с длинных оглавлений, другие полны иллюстраций. ИИ должен распознать, какой контент в получаемой аудиокниге следует прочитать вслух, а какой - нет. После этого ИИ должен "прочитать" книгу. По словам Гамильтона, в обычных условиях чтение вслух, редактирование, монтирование и сборка полноценной восьмичасовой аудиокниги может занять от нескольких десятков до сотен часов. «Если вы пытаетесь начитать 5 000 книг и собираетесь заплатить человеку за озвучку, то вы быстро поймете, что это невозможно», — добавляет Гамильтон.

Он говорит, что проект «Гутенберг» хотел продемонстрировать возможность автоматического создания осмысленной аудиокниги, используя новые типы нейронных алгоритмов преобразования текста в речь. «Эти алгоритмы могут четко и профессионально "прочитать" восьмичасовую книгу за две минуты, что меняет правила игры для такой некоммерческой организации, как Project Gutenberg, у которой нет ни времени ни  ресурсов для начитки книг самостоятельно», — говорит Гамильтон.

Благодаря такой высокой скорости записи аудиокниг Гамильтон рассчитывает на возможность создания и персонализированного аудиоконтента: «например, для детей с аутизмом может быть полезно, если книга будет прочитана знакомым голосом. Мы надеемся, что такие технологии, как наша, помогут в подобных случаях. Мы не хотим автоматизацией устранять связь между родителями и детьми во время чтения; мы хотим предоставить им новые способы общения. Мы думаем, что этот проект продолжится и 5 тысяч аудиокниг с открытой лицензией станут доступны для всех желающих, и мы надеемся, что, такая технология сделает произведения удобными для прослушивания и устранит барьеры для распространения литературы», — сказал Гамильтон.

Телеграм-канал "Интриги книги".