289 подписчиков

Мы обучали искусственный интеллект Google в течение 15 лет, не подозревая об этом.

18 марта18 мар

184

6 мин

500 000 часов бесплатного человеческого труда ежедневно. reCAPTCHA — самая успешная операция по сбору скрытых данных в истории интернета. На пике популярности ее ежедневно решали 200 миллионов человек. Почти никто из них не понимал, что именно они делают. В 2000 году интернет заполонили спам-боты, форумы были переполнены, почтовые ящики — забиты, сайтам нужен был способ отделять людей от ботов. Луис фон Ан был молодым информатиком из Университета Карнеги в Меллоне, который пытался решить проблему спама в интернете. Это он придумал CAPTCHA: искаженное слово, которое может прочитать только человек. Боты не справлялись с этой задачей, а люди проходили проверку. Но Луис увидел самое главное, миллионы людей тратили свои когнитивные ресурсы на решение этих задач. А что, если бы эти ресурсы можно было использовать для двух целей одновременно? В 2007 году фон Ан объединился с The New York Times, которая оцифровывала старые номера, и некоммерческой организацией Internet Archive, переводившей в

Оглавление

С чего всё началось?
Масштаб, о котором никто не говорит
На чем все это построено

500 000 часов бесплатного человеческого труда ежедневно.

reCAPTCHA — самая успешная операция по сбору скрытых данных в истории интернета. На пике популярности ее ежедневно решали 200 миллионов человек. Почти никто из них не понимал, что именно они делают.

С чего всё началось?

В 2000 году интернет заполонили спам-боты, форумы были переполнены, почтовые ящики — забиты, сайтам нужен был способ отделять людей от ботов.

Луис фон Ан был молодым информатиком из Университета Карнеги в Меллоне, который пытался решить проблему спама в интернете.

Это он придумал CAPTCHA: искаженное слово, которое может прочитать только человек. Боты не справлялись с этой задачей, а люди проходили проверку.

Но Луис увидел самое главное, миллионы людей тратили свои когнитивные ресурсы на решение этих задач.

А что, если бы эти ресурсы можно было использовать для двух целей одновременно?

В 2007 году фон Ан объединился с The New York Times, которая оцифровывала старые номера, и некоммерческой организацией Internet Archive, переводившей в цифру тысячи изданий. Эти проекты использовали программы оптического распознавания текста (OCR), у которых была та же слабость, что и у спам-программ: они не считывали искаженные буквы. Угадайте, где еще была масса искаженных, выцветших, изъеденных временем букв? В старых книгах, газетах и журналах. В текстах старше полувека ошибки OCR достигали 30%, и перепроверять такие объемы вручную было бы (очень дорогим) безумием.

Луис фон Ан и его reCAPTCHA решили задачу элегантно. Новая капча показывала пользователю два слова: одно контрольное, уже известное системе, и одно новое — из скана книги или газеты. Если человек правильно вводил первое, компьютер полагал, что и второе, скорее всего, верно.

Далее вариант юзера сверяли с ответами других пользователей. Когда 10 человек расшифровывали одно и то же слово одинаково, оно считалось распознанным и само становилось первым контрольным словом.

Люди так часто проходили капчу, что годовой объем статей NYT расшифровывали каждые четыре дня.

Всего за несколько месяцев юзеры по всему миру оцифровали выпуски газеты New York Times за двадцатилетний период!

В течение только первого года эксперимента reCAPTCHA было расшифровано 440 миллионов слов, что эквивалентно 17 600 книгам.

К настоящему моменту оцифрована вся библиотека NYT (включая печатные издания с 1851 по 1980 год).

Подведя первые итоги, институт CyLab при Университете Карнеги в Меллоне, тот самый, в котором работала группа фон Ана, сообщил о 99,1% точности распознавания — результат, близкий к профессиональному в транскрибировании.

В 2009 году проект reCAPTCHA купила Google и с его помощью запустила уже Google Books — амбициозный проект по «оцифровке всех существующих книг». К 2019 году компании удалось с помощью reCAPTCHA отсканировать более 40 миллионов книг (около трети всего мирового фонда).

Вам казалось, что вы входите в систему. На самом деле вы занимались оптическим распознаванием символов для крупнейшей в мире цифровой библиотеки.

Эпоха волнистых линий в словах закончилась примерно в 2012 году, хотя иногда они таки встречаются, видимо не все архивы оцифрованы.

После покупки проекта reCAPTCHA, Google изменил правила игры

У Google возникла новая проблема. Автомобили Street View фотографировали каждую дорогу на планете. Но фотографии — это необработанные данные. Чтобы искусственный интеллект был полезен, ему нужно понимать, что он видит: знаки, пешеходные переходы, светофоры, витрины магазинов.

Поэтому Google переработал reCAPTCHA v2. Вместо искаженного текста появились сетки с фотографиями.

«Нажмите на все квадраты со светофором», «Выберите все пешеходные переходы», «Определите витрины магазинов».

Эти изображения взяты непосредственно из Google Street View.

Все наши клики были метками. Каждый выбор сообщал модели компьютерного зрения Google: этот кластер пикселей — светофор. Эта фигура — пешеходный переход.

Вы не проходили тест, а формировали базу данных.

Масштаб, о котором никто не говорит

На пике популярности ежедневно решалось 200 миллионов reCAPTCHA.

10 секунд на решение задачи. Это 2 миллиарда секунд человеческого труда, каждый день, 500 000 часов ежедневно. Платная разметка данных стоит от 10 до 50 долларов в час, таким образом, по самым скромным подсчетам - это около 5 миллионов долларов бесплатного труда ежедневно.

И reCAPTCHA была не в одном приложении. Она была в каждом банке, на каждом государственном портале, на каждом сайте электронной коммерции, на каждой странице входа в интернет. У нас не было выбора. Хотите зайти в свой аккаунт? Сначала аннотируйте набор данных. Google не спрашивал, не платил и даже не предупреждал.

На чем все это построено

Эти данные были использованы в двух продуктах.

Google Карты - самый популярный навигационный инструмент в мире. Его способность распознавать дорожные знаки, находить предприятия и ориентироваться в городской среде отчасти основана на миллиардах пользовательских аннотаций, оставленных людьми, которые пытались зайти на сайты.

А также Waymo - проект Google по созданию беспилотных автомобилей, который в 2016 году был выделен в отдельную компанию. Для безопасной навигации беспилотному автомобилю необходимо с почти идеальной точностью распознавать тысячи визуальных объектов: cветофоры, пешеходные переходы, самих пешеходов, знаки «Стоп». Исходные обучающие данные для распознавания аннотированы миллионами людей. С помощью reCAPTCHA, без их ведома.

В 2024 году компания Waymo совершила более 4 миллионов платных поездок. Беспилотные такси Waymo есть в Сан-Франциско, Лос-Анджелесе и Финиксе. Компания ежемесячно расширяет свою деятельность. Ее стоимость оценивается в 45 миллиардов долларов.

Почему никто не смог повторить это?

Потому что ни у кого не было доступа к бесплатной рабочей силе таких масштабов. Разметка данных — дорогостоящий процесс. Такие компании, как Scale AI, Appen и Labelbox, существуют исключительно для того, чтобы решить эту проблему. Они нанимают сотни тысяч сотрудников для разметки изображений, иногда менее чем за доллар в час.

В Google решили эту проблему иначе. Они просто сделали аннотацию обязательной, не платной, не требующей согласия.

Результат: миллиарды размеченных изображений. Глобальный охват, все погодные условия, все времена суток, все города мира.

Ни одна компания, занимающаяся аннотированием, не смогла бы этого сделать. Интернет сам по себе был фабрикой. Каждый пользователь был сотрудником, который никогда не подписывал контракт.

Версия, которой вы пользуетесь до сих пор

reCAPTCHA v3, запущенная в 2018 году, вообще не требует выполнения заданий. Она отслеживает, как вы двигаете мышью. Как прокручиваете страницу. Как долго задерживаете курсор. По вашему поведению система определяет, человек ли вы.

Эти поведенческие данные также используются в системах искусственного интеллекта Google.

Вы никогда не давали на это согласие, вам не нужно было ставить галочку, вы делаете это прямо сейчас на большинстве посещаемых вами сайтов.

Мы доказали, что мы люди, сделав себя заменимыми.

Идея Луиса фон Ана была гениальна: перенаправить когнитивные усилия, которые люди уже тратят на спам-фильтры, на что-то полезное. Оцифровать все книги мира. Решить реальную проблему общими усилиями.

То, что Google сделала с этой концепцией, — нечто иное. Они взяли механизм защиты, который пользователям ничего не оставалось, кроме как использовать, развернули его по всему интернету и использовали полученные данные для создания коммерческих продуктов стоимостью в десятки миллиардов долларов.

Пользователи ничего не получили, даже информации о том, что они в этом участвовали.

Самая горькая ирония заключается в том, что мы годами доказывали, что мы люди. Выполняя именно ту работу по визуальному распознаванию, с которой искусственный интеллект пока не справлялся. После того как ИИ научился выполнять эту работу, необходимость в визуальных аннотациях, сделанных человеком, отпала.

Источник.