70 подписчиков

Robots.txt станет стандартом интернета спустя 25 лет

4 июля 20194 июл 2019

2 мин

На первый взгляд это может показаться незначительным событием, но не стоит заблуждаться. На самом деле – это серьезный шаг.

Спустя четверть века после того, как файл robots.txt был впервые создан в качестве стандарта de-facto, Google Engineering Task Force признала его официально. Отныне он является неотъемлемой частью любого сайта в соответствии с современными требованиями глобальной «паутины».

Создатель первой в интернете поисковой системы Allweb, голландский инженер-программист Мартейн Костер, предложил в 1994 году свод правил, ограничивающих автоматический доступ поисковых роботов к сайтам. Эта идея у него возникла после того, как плохо написанный индексатор вызвал атаку типа «отказ в обслуживании» на его сервере.

С тех пор веб-разработчики размещают необходимые правила в файл robots.txt и сохраняют его в корневом каталоге структуры сайта на сервере. Он позволяет направлять поисковых роботов по нужным направлениям и блокировать им доступ к тем, данным, которых они не должны касаться.

Поскольку файл robots.txt до сих пор не был внесен в официальный интернет-стандарт, в течение последних двух десятилетий его использование носило противоречивый характер и толковалось разными специалистами по-своему.

Это усложняло для веб-разработчиков действующие правила, и теперь Google пытается изменить ситуацию, формализовав и обновив протокол. Среди обновлений появится возможность сделать robots.txt применимым к любому протоколу унифицированного идентификатора ресурса, а не только к протоколу передачи гипертекста, как в настоящее время.

Google также предлагает обеспечить анализ первых 500 килобайт файла robots.txt и определить максимальный размер файла, чтобы избежать чрезмерной нагрузки на серверы, наряду с новым максимальным временем кэширования в 24 часа.

В случае сбоя сервера, делающего ранее проанализированный файл robots.txt недоступным, известные исключенные страницы не будут сканироваться в течение достаточно длительного времени. Улучшение определения синтаксиса robots.txt также является частью предлагаемого интернет-стандарта, чтобы помочь веб-разработчикам писать правильный код для этого файла.

За прошедшие годы стандарт исключений для роботов (REP) стал де-факто интернет-стандартом, но совместим не со всеми поисковыми системами. Следование инструкциям robots.txt является добровольным, поэтому многие поисковые роботы часто игнорируют этот файл.

В Google отмечают, что парсер robots.txt существенно развился за последние двадцать лет его использования. Тем не менее, он содержит фрагменты кода, написанные еще в 1990-х годах.