96 подписчиков

Как мы, сами того не подозревая, помогаем Google в оцифровке книг

7 августа 20197 авг 2019

1520

2 мин

Наверное, каждый из нас хотя бы раз вводил символы с картинки для подтверждения того, что вы не робот. Системы антиспама бывают самыми разнообразными. Но вот reCAPTCHA стоит от них несколько особняком. Достаточно сказать, что владельцем данного сервиса является Google. И уже одно это заставляет предположить, что она несет в себе некоторую смысловую нагрузку. Хотя… давайте рассмотрим ее подробнее.

При вводе reCAPTCHA предлагается ввести два слова, отсканированные из одной книги. Пользователь вводит слова, система распознает правильность ввода, тем самым решая, человек вы или нет. Но, здесь есть небольшой нюанс. В данной системе защиты проверяется только первое слово. Вводя вариант второго слова, которое, как правило, отображается гораздо хуже, мы тем самым помогаем системе распознать это слово правильно.

Таким образом, мы не только проходим защиту от спама, но и помогаем оцифровывать старые книги. Не верите. Давайте разбираться дальше.

К примеру, есть некий экземпляр книги, которых либо осталось очень мало, либо он в очень плохом качестве. И вот для того, чтобы сохранить данную книгу в Google происходит ее оцифровка.

Но перебирать и распознавать такое огромное количество текста вручную – то еще занятие. Поэтому распознаванием текста занимается система распознавания символов, то есть OCR.

Вот только кто хоть раз пробовал распознать отсканированное изображение, знает, что не все слова распознаются одинаково хорошо. Вот тут то и помогает reCAPTCHA. Все дело в том, что одно слово система ставит такое, которое распознано на сто процентов. А второе, распознавание которого очень неуверенно.

Проверка проходит по первому слову. А вот второе слово уже для системы. То есть, миллионы пользователей ввели свои варианты распознавания слова. Система выбирает тот вариант, повторяемость которого выше всего. Вот так вот мы, сами того не осознавая, помогаем оцифровывать старые книги.

По сути, reCAPTCHA могла бы выглядеть так:

С одной стороны это конечно здорово и прекрасно, что мы помогаем оцифровывать книги. Но, с другой, некоторые пользователи возмущены существующим положением вещей. И не зря критикуют. А дело тут вот в чем.

За каждый текст, который распознает Google, он, так или иначе, получает деньги. И порою немаленькие. А вот распознавание достается ему бесплатно. По сути, здесь используется наш с вами бесплатный труд.

Впрочем, меня это не особо волнует. И при том, никто же не заставляет вас вводить ее насильно.