821 подписчик

Текстовый файл, на котором держится Весь интернет

На протяжении десятилетий robots.txt регулировал поведение поисковых систем, но по мере того, как недобросовестные компании, занимающиеся разработкой своих языковых моделей, запрашивают все больше и больше данных, базовый социальный контракт в сети рушится. В статье рассмотрим, кто такие веб-роботы, как обычный текстовый файл защищает интернет и почему искусственный интеллект меняет ландшафт сети.

Появление ботов-сканеров

На заре интернета боты-сканеры создавались с благими намерениями и имели множество названий: пауки, краулеры, черви, веб-анты, веб-краулеры. Обычно разработчик пытался создать каталог новых интересных веб-сайтов или убедиться, что его собственный сайт работает должным образом. Все это было в 1993 году, задолго до появления поисковых систем.

Единственной реальной проблемой тогда был трафик: доступ в интернет был медленным и дорогостоящим как для человека, просматривающего веб-сайт, так и для того, кто размещает его на хостинге. Если они размещали веб-сайт на своем компьютере или на созданном серверном программном обеспечении, работающем через домашнее интернет-соединение, достаточно было нескольких сканеров, чрезмерно усердно просматривающих и индексирующих веб — страницы.

Маленький защитник интернета

В 1994 году Мартинн Костер и его коллеги придумали Robots Exclusion Protocol. Они предложили веб-разработчикам добавлять текстовый файл на сайт, чтобы указать ботам, какие страницы запрещено просматривать. Разработчикам сканеров просто нужно было уважать эти инструкции.

С самого начала Костер ясно дал понять, что не испытывает ненависти к краулерам и не собирается от них избавляться. Он предостерег от споров о том, хороши роботы или плохи, потому что это не имело значения. Разработчик просто пытался создать систему, которая могла бы «свести к минимуму проблемы и максимизировать выгоды».

«Роботы – один из немногих аспектов интернета, который вызывает проблемы в работе и огорчает людей. В то же время они предоставляют полезные услуги».
Мартинн Костер, создатель Robots Exclusion Protocol

К лету того же года его предложение стало стандартом — не официальным, но общепринятым.

Мартинн Костер пояснил: «Короче говоря, это метод отвода роботов от определенных областей в пространстве URL путем предоставления простого текстового файла на сервере».

Он создал тематический список рассылки, участники которого согласовали некоторый базовый синтаксис и структуру для этих текстовых файлов, изменили название файла с RobotsNotWanted.txt на простое robots.txt. Все согласились его поддерживать.

В течение 30 лет крошечный текстовый файл защищал интернет от хаоса. Он не имеет особых юридических или технических полномочий. Это соглашение между пионерами интернета об уважении друг друга и построении его так, чтобы это приносило пользу всем. Это мини-конституция интернета, написанная кодом.

Он называется robots.txt и находится по адресу yourwebsite.com/robots.txt. Этот файл позволяет любому, кто управляет веб-сайтом сообщать сети:

кому разрешен вход, а кому нет;
какие поисковые системы могут индексировать сайт;
какие архивные проекты могут получить версию страницы и сохранить ее;
могут ли конкуренты следить за страницами в поисках собственных файлов.

Это не идеальная система, но она работает. Во всяком случае, так было раньше. Десятилетиями основное внимание robots.txt уделялось поисковым системам. Теперь искусственный интеллект изменил уравнение — компании по всему Интернету используют сайты для массивных наборов обучающих данных, чтобы создавать новые языковые модели и продукты.

Современные боты и борьба с ними

Интернет больше не помещается на жесткий диск, а боты-сканеры стали намного мощнее. Google использует их для сканирования и индексации всей сети для своей поисковой системы. Поисковые системы «Яндекс» и Bing делают то же самое, а Microsoft лицензирует свою базу данных другим поисковым системам и компаниям. Web-архив использует поисковый робот для хранения веб-страниц для потомков. Компании, занимающиеся ИИ, сканируют интернет, чтобы обучать большие языковые модели.

Поисковые системы довольно просты. Поисковый робот загружает первую страницу и где-то сохраняет ее, затем автоматически загружает все ссылки, и так распространяется по сети. При наличии достаточного количества времени и вычислительных ресурсов поисковый робот найдет и загрузит миллиарды веб-страниц.

По оценкам Google, в 2019 году более 500 миллионов веб-сайтов имели страницу robots.txt, определяющую, разрешен ли доступ поисковым роботам и к чему именно. Структура этих страниц примерно одинакова: они называют себя «User-agent», что относится к имени, которое использует поисковый робот, когда идентифицирует себя на сервере. Внизу на странице robots.txt перечислены разделы сайта, доступ к которым агенту запрещен, наряду с исключениями. Если строка просто гласит «Запретить: /», поисковый механизм вообще не должен срабатывать.

Возможность загружать, хранить, систематизировать и запрашивать информацию в современном интернете дает любой компании или разработчику нечто вроде накопленных знаний для работы. За последний год распространение продуктов искусственного интеллекта, таких как ChatGPT, и больших языковых моделей, лежащих в их основе, сделало высококачественные обучающие данные одним из самых ценных товаров интернета. Это заставило провайдеров пересмотреть ценность данных на серверах и переосмыслить, кто и к чему получает доступ.

«В настоящее время обычно речь идет не столько о ресурсах, используемых на веб-сайте, сколько о личных предпочтениях. Самый большой вопрос, на который приходилось отвечать большинству владельцев веб-сайтов, заключался в том, разрешать ли роботу Googlebot сканировать их сайт. Компромисс довольно прост: если Google может сканировать страницу, он может проиндексировать ее и показать в результатах поиска».
Джон Мюллер, специалист по поиску в Google

В прошлом году развитие искусственного интеллекта перевернуло это уравнение. Для многих издателей и платформ сканирование данных стало кражей.

«Что мы довольно быстро обнаружили в компаниях, занимающихся искусственным интеллектом, так это то, что это не только не обмен ценностями, мы ничего не получаем взамен. Буквально ноль».
Тони Стабблбайн, генеральный директор Medium

За последний год значительная часть медиаиндустрии поддержала мнение Тони Стабблбайна. Исследование Бена Уэлша, редактора новостных приложений в Reuters, показало, что 606 из 1156 опрошенных издателей заблокировали GPTBot в своих robots.txt. Доступ GPTBot к своим сайтам также блокируют Amazon, Facebook, Pinterest, wikiHow, WebMD и другие платформы. Однако есть множество других ботов, ориентированных на ИИ, которые также сканируют интернет, среди них: anthropic-ai и Google-Extended. Существуют также поисковые системы, используемые как для веб-поиска, так и для искусственного интеллекта.

CCBot — это поисковый робот, которым управляет организация Common Crawl. Он сканирует интернет с целью создания поисковой системы. Однако данные, собранные CCBot, также используются OpenAI, Google и другими компаниями для обучения своих моделей искусственного интеллекта.

Bingbot от Microsoft — это не только поисковый робот, но и робот с искусственным интеллектом.

Главный антагонист robots.txt

GPTBot стал главным антагонистом robots.txt, потому что OpenAI позволил этому произойти. Компания опубликовала информацию о том, как заблокировать GPTBot, и создала свой поисковик, который идентифицирует себя каждый раз, когда он приближается к веб-сайту. Все это было сделано после обучения базовых моделей.

«Мы являемся участниками экосистемы. Если вы хотите участвовать в этой экосистеме открытым способом, то это взаимная торговля, в которой заинтересованы все. Без этой торговли сеть начинает сокращаться, закрываться — и это плохо для OpenAI и для всех остальных. Мы делаем все это для того, чтобы Интернет оставался открытым».
Джейсон Квон, директор по стратегии OpenAI

По умолчанию протокол исключения роботов всегда был разрешительным. При этом robots.txt до сих пор не является юридическим документом, и спустя 30 лет после его создания он по-прежнему зависит от доброй воли всех вовлеченных сторон. Запретить бота на странице robots.txt можно, но его присутствие нельзя оспорить в суде.

Поскольку компании, занимающиеся ИИ, продолжают размножаться, а их поисковые системы становятся все более беспринципными, каждый должен вступить в бесконечную игру. Если ИИ действительно является будущим, блокировка поисковых систем может стать краткосрочной победой, но долгосрочной катастрофой.

С обеих сторон есть люди, которые считают, что нужны лучшие, более сильные и жесткие инструменты для управления поисковиками. Некоторые издатели хотели бы получать подробную информацию, для чего используются боты. Google, которая несколько лет назад предприняла попытку сделать протокол исключения роботов официальным формализованным стандартом, также стремилась приуменьшить значение robots.txt на том основании, что это старый стандарт и слишком много сайтов не обращают на него внимания.

«Мы признаем, что существующие средства управления веб-издателями были разработаны до появления нового искусственного интеллекта и исследований вариантов использования. Мы считаем, что веб-сообществам и сообществам ИИ пора изучить дополнительные машиночитаемые средства для выбора веб-издателей и контроля за исследовательскими примерами использования».
Даниэль Ромен, вице-президент Google по трасту

Даже сейчас, когда компании, занимающиеся искусственным интеллектом, сталкиваются с нормативными и юридическими вопросами, модели продолжают совершенствоваться. Веб-сайты стоят перед выбором: подчиниться революции ИИ или противостоять ей. Для тех, кто решил отказаться, самым мощным оружием является соглашение, заключенное 30 лет назад одними из первых и наиболее оптимистичных сторонников интернета.

Подписывайтесь на наш телеграм-канал и читайте прошлую статью, если пропустили:

«Почта России»: миллиард на новую СУБД вместо ремонта отделений

Обайти7 июля