reCAPTCHA - ИТ-решение, благодаря которому распределенная активность пользователей Интернета используется для помощи в распознавании фрагментов отсканированного текста, которые не могут быть прочитаны программой OCR . Он сочетает в себе защиту веб-сайтов с помощью CAPTCHA с полезной работой пользователей сети по оцифровке текстов. Разработал и внедрил проект reCAPTCHA в Университете Карнеги-Меллонс в Питтсбурге.
Из-за массового использования ботов для распространения спама все больше и больше веб-сайтов защищают свои веб-сайты с помощью CAPTCHA . Пользователь должен распознать на изображении фрагмент намеренно искаженного текста - таким образом он доказывает, что он живой человек, а не машина. Задачи CAPTCHA (пары, состоящие из изображения и скрытого на нем слова) генерируются автоматически соответствующими программами.
Между тем, программы OCR сталкиваются с очень похожей задачей распознавания нечитаемых фрагментов текста. При оцифровке отсканированного текста (например, книг) часто появляются нечитаемые фрагменты, для которых программа OCR не дает четкого результата. Поскольку человек лучше машины правильно распознает такие фрагменты, учреждения, занимающиеся оцифровкой библиотечных ресурсов, нанимают сотрудников, задачей которых является проверка ошибок распознавания текста.
Идея reCAPTCHA позволяет заменить работу валидаторов на группу случайных пользователей сети, которые ежедневно решают около 200 миллионов задач CAPTCHA. Если решение одной задачи занимает 10 секунд, общее количество отработанных часов таким образом превышает 150 000 часов в день. Использование даже небольшой части этой работы для помощи при оцифровке позволяет сэкономить несколько тысяч рабочих мест для сотрудников, проверяющих работу OCR традиционными методами.