41 подписчик

Google оцифровала 25 млн. книг — почему их нельзя читать?

3 мая 20193 мая 2019

4 мин

Захватывающая история о том, как человеческая наивность и жадность задушили самый амбициозный IT-проект тысячелетия — проект по оцифровке всех-всех книг, которые только есть в мире. Опубликована в The Atlantic, мы же предлагаем относительно краткий пересказ.

Из идеи об оцифровке книг и возможности мгновенно искать в них любые отрывки текста родилась Google. Ларри Пейдж и Сергей Брин задумывали создать поисковик не по интернету, но по книгам. Но вышло иначе, а к идее о том, чтобы перевести в цифровой формат все книги они вернулись только в начале "нулевых".

Проект по оцифровке всех сначала американских, а затем вообще всех-всех книг получил кодовое название "Project Ocean". Даже в самой Google те сотрудники, что не были в него вовлечены, рассматривали идею как нечто, слабо совместимое с реальностью. Нечто вроде нынешней "хотелки" Илона Маска отправить человека на Марс. Но проект поддерживали сам Пейдж и Брин, так что у него, разумеется, был более чем зеленый свет.

Начиная с 2002 года Google начала жадно сканировать все книги, до которых могла дотянуться. Для этого она договорилась с крупнейшими библиотеками США и организовала специальные центры сканирования, в которые книги из библиотек свозили фурами. Это не фигура речи — логистически "Project Ocean" был не менее сложным, чем технически.

Да, для реализации проекта Google пришлось придумать специальные "железо" и "софт" — ведь до нее на тот момент задачу быстрого сканирования миллионов книг еще никто не решал.

Сканируемая книга жестко закреплялась на специальном стенде, сверху на нее смотрели несколько фотоаппаратов, а лидар ("трехмерный радар") определял точное положение листов книги в пространстве, чтобы позже специальное программное обеспечение учитывало это и "распрямляло" криво сфотографированные листы бумаги.

Таким образом, в Google решили самую большую проблему при оцифровке книг — их точном закреплении при сканировании, чтобы все получалось ровно и красиво. Тут "голова болела" об этом не у людей, а у программы и ее алгоритмов.

Интересно, что при всей технологической навороченности стендов для "сканирования" книг, листы вручную переворачивали люди — машины не могли делать это достаточно быстро и одновременно достаточно нежно. Ведь перевести в цифровой формат нужно было и старые, и очень старые книги, обращаться с которыми надо было исключительно аккуратно.

Оператор переворачивал страницу, нажимал на педаль на полу, камеры фотографировали, он снова переворачивал — и так до тысячи раз в час.

К августу 2010 года Google потратила на проект в общей сложности 400 млн. долларов. И объявила о том, что по ее подсчетам в мире 129 864 880 книг. И она хочет оцифровать их все.

Когда издатели и авторы поняли, что Google не шутит насчет "взять и все оцифровать", они моментально возбудились. Шутка ли — компания просто взяла и скопировала содержимое крупнейших американских библиотек! Не спросив разрешения ни у кого, кроме библиотек! В общем, на нее подали иск — и группа издателей, и Гильдия авторов.

В какой-то момент все вовлеченные стороны внезапно поняли — то, что сделала Google, может открыть новый гигантский рынок книг, особенно уже вышедших из обращения.

Однако иск был подан, судебные заседания шли и вместе с ними пришло понимание, что если пустить дело на самотек и доводить его до логического конца, то проиграют все. Так, если авторы и издатели выиграют в суде, то Google им что-то заплатит и прекратит сканировать книги, но не откроет к ним доступ читателям, поскольку не имеет на это права. Если выиграет Google — она сможет показывать читателям отрывки, но не продавать электронные копии книг целиком, поскольку опять же законы это запрещают.

На протяжении 2,5 лет юристы Google, библиотек, издателей и Гильдии авторов вели сложнейшие переговоры, суть которых один из их участников кратко, но емко охарактеризовал как "четырехмерные шахматы" — надо было учесть интересы всех сторон.

Грандиозность соглашения привлекла внимание Министерства юстиции США, которое начало расследование и попросило всех, кто возражает против этого соглашения "говорить сейчас или молчать вечно".

Разумеется, возражения поступили. От Microsoft и Amazon с технологической стороны, а также от нескольких тысяч авторов, многие из которых, похоже, не до конца поняли суть соглашения. Против высказывались и многие уважаемые в "книжном" сообществе люди.

Формально в итоге победила, как мы сказали в самом начале, Google — ей позволено показывать отрывки из оцифрованных книг. Но проиграли — все. Читатели не получили гигантской цифровой библиотеки из всех-всех когда-либо напечатанных книг. Издатели и авторы не получили возможности получать постоянно небольшую денежку от их продажи. А Google "заморозила" траты в размере 400 млн. долларов. Даже выиграв, компания охладела к своему проекту и больше не сканирует книги. Кончился запал.

Сегодня где-то далеко на серверах Google лежат 50-60 петабайтов оцифрованных книг. Вот они, только руку протяни. Но доступ к ним имеют лишь несколько инженеров компании, ответственных за то, чтобы никто другой не получил к этим книгам доступ.