Что такое поисковые роботы
Это обычные программы, которые работают на серверах поисковых систем, например Яндекс или Гугл. Задача этих программ ходить по ресурсам интернета, собирать информацию и передавать для обработки программам - анализаторам контента.
Специально употребил слово "ресурс", поскольку оно включает в себя не только сайты интернета, но и всевозможный другой контент - от текстовых документов "без сайта" до баз данных и баз знаний.
Конечно, когда сейчас говорю о роботах в первую очередь подразумеваю их как исследователей сайтов.
Как работают поисковые роботы
Система работы, если использовать роботов с позиции "черный ящик", очень проста:
На главном сервере, допустим, Яндекса запускается сразу множество копий программ - роботов. Задача каждого - поиск и сбор информации.
Если посмотреть карту интернета, то увидим взаимосвязи между всеми ресурсами в сети. И робот, однажды попавший в сеть, может бродить бесконечно долго переходя по ссылкам с одной страницы на другую, с одного ресурса на другой.
Сразу отвечу на вопрос о тех сайтах, на которые никто не ссылается. Как туда попадет робот? На самом деле таких ресурсов нет. У каждого ресурса есть адрес и имя. Адрес и имя храняться на всех узловых станциях интернета. Эти узловые станции обходит специальная программа - робот, которая заносит все встреченные адреса и имена в свою базу данных. И по этой базе данных "свободные" роботы направляются в путь. Другое дело, что сеть интернет достигла колосальных объемов и база данных очень большая и свободных роботов мало. Поэтому до такого сайта робот может дойти не сразу, а через какое-то время. Несколько лет назад это время было от нескольких дней до месяца. Сейчас "тихий сайт" может оставаться не охваченный роботом очень длительное время.
Еще раз. Задача поискового робота взять информацию с сайта и передать её для обработки дальше.
Алгоритм работы примерно следующий:
1. Робот пришел на сайт.
2. Проверил настройки и получил/не получил дополнительных указаний. Тут имеется в виду то, что роботом можно управлять. Но об этом дальше.
3. Идет с условной "главной страницы" по ссылкам и "читает" сайт. Читает он всё: разметку, служебные данные, данные которые видит пользователь, скрытые данные, настройки шаблонов...
4. Переход между страницами идет по ссылкам на страницах. То есть обработав материал текущей страницы, робот собирает ссылки на этой странице и дальше переходит по ним. По ссылкам робот может как бродить по сайту, так и перейти на другой сайт.
Как робот работает с сайтом определяется, на мой взгляд, двумя вещами:
1. Внешними настройками. Тут и доверие к конкретному сайту, и размер сайта, и время отпущенное роботу для работы с этим сайтом... Эти параметры задаются сервером поисковика и, важно, они могут меняться со временем и по результатам анализа данных.
2. Внутренними. Указаниями куда и как смотреть сайт роботу.
Управление роботом
Как сказано выше, робот управляется "родителем". Однако, нам предоставили возможность корректировать поведение робота.
Для начала мы можем запретить роботу появляться у нас на сайте. Или ограничить области его доступа. Или подсунуть ему много не нужной информации.
Основной инструмент влияния это файл robots.txt. Описывать не буду. Кому интересно сходите по ссылке.
Дополнительными элементами влияния являются настройки сайта. То есть быстрый и правильно структурированный сайт будет обрабатываться быстро и полнее, чем медленный и с плохой навигацией. В последнем случае возможно будут отдельные статьи до которых робот просто никогда не доберется... Это обусловлено, что ресурсы робота ограничены и он не может (может, конечно, но ему для этого нужноспециальное разрешение от "хозяина") вечно бродить по Вашему сайту.
Ведь не зря все рекомендуют, в том числе и в справке Великих Яндекса и Гугла работать над сайтом. Над всеми его параметрами от внешнего вида до оптимизации движка.
Карта сайта. Управляет роботом опосредовано. Как она работает. Карта сайта это набор основных материалов сайта, которые предлагаются поисковым ботам в качестве обязательной программы. Таким образом приоритет идет ссылкам из карты сайта, особенно новым ссылкам в ней. Затем уже по возможности обходятся и другие доступные страницы.
Интересным механизмом влияния на роботов является feed. Гуглу, например, фид говорит напрямую о новых материалах и бот быстренько их перерабатывает. После настройки фида у себя на проектах с индексацией гуглом проблем совсем не стало. Новые материалы обходятся за считанные часы, а в выдачу попадают на следующие сутки обычно. На Яндекс такого влияния нет, но feed лента им так же обходится и принимается в расчет.
О работе поисковиков
В этом свете поисковики выступают в роли хозяев ботов. Хозяева определяют алгоритмы работы роботов и после получении от них информации приступают к её анализу. В результате анализа получают, как минимум следующие результаты:
1. Данные для поисковой выдаче. Какие статьи и по каким запросам показывать, на каком месте в поиске выводить, как выводить и т.д.
2. Корректировка уровня доверия к сайту (траст сайта). Чем больше доверие, тем в поиске сайт выше и тем чаще и тщательнее будет осматривать поисковый бот конкретный сайт.
3. Команды боту по изменеию работы с конкретным сайтом.
Коммент - подписка - лайк поддержит меня в наполнении канала.
Рекомендую свои статьи:
- Открыть docx xlsx в офисе 2003.
- Виндовс 10 не подключает сеть Wi-fi
- Что можно удалить из папки Windows
- Горячие клавиши Windows Win+
- Тормозит компьютер с HDD диском - решаем проблему в 99% случаев
- Легко и быстро очищаем системный диск С.
- В браузере смотрим пароли и удаляем вирусы, которые майнят на вашем ПК.