146 подписчиков

Особенности поведения поисковых роботов и пользователей-людей

Друзья, это долгий текст в двух томах о вечной борьбе между машинами и человеком! Ой, о чем это я? Про терминатора напишем в пятницу, а здесь расскажем о великой разнице между "взглядом" робота и человека на наши с Вами сайты.

Итак, в чем различие:

📌 Том 1

1) Поисковые роботы действуют быстро. Время, которое может быть потрачено «пауком» Яндекса или Гугла на загрузку страницы, ограничено. Люди тоже не любят ждать, но, теоретически, человек, если ему какая-то информация очень нужна, может ждать загрузки страницы довольно долго. Роботы поисковиков ведут себя иначе, они не будут оставаться на странице дольше предельных для них норм. Если страница не загружается в отведённое ими на это время — она не будет загружена и проиндексирована.

2) Поисковые роботы не нажимают на кнопки, не заполняют формы и не делают выбор. Некоторые опции выбора поисковым роботам доступны — например, в тех случаях, когда варианты выбора равно отображены в коде и выбор пользователя-человека сводится только к визуализации на странице того или иного варианта. А поисковый робот считывает код и индексирует все варианты, фактически присутствующие на странице. Скажем, все изображения в слайдере со всеми их подписями (хотя одномоментно на странице видно только одно изображение). Или если разные варианты выбора имеют разные URL-ы, причём эти URL-ы могут быть известны поисковику и как-то иначе, не через нажатие кнопок или т.п. (например, Яндекс может получить о них данные из Яндекс.Метрики, установленной на всех страницах сайта). Если же ничего подобного нет — поисковик ограничится индексацией только той страницы, до которой дошёл — и в том её виде, в котором её увидит пользователь, ещё не нажимавший никаких кнопок, не отправлявший никаких форм и т.д. Этот эффект известен давно: https://ru.wikipedia.org/wiki/Глубокая_сеть

Продолжаем тему особенностей поведения поисковых роботов в сравнении с пользователем человеком?)

📌 Том 2

3) Поисковые роботы выполняют не все скрипты. Раньше они вообще этого не делали — и, если, например, на странице был расположен код JavaScript, заменявший на ней все слова «чёрный» на «белый», поисковики подобную замену не видели и индексировали текст со словами «чёрный» (хотя пользователи-люди в своих браузерах видели это слово как «белый»). Однако, поисковики с тех пор сильно поумнели и научились такие моменты обнаруживать и учитывать — но, всё же, не все и не всегда. Если web-мастер, делавший страницу, захочет показать на ней людям одно содержимое, а поисковым роботам — другое, у него, при грамотном подходе, хорошие шансы на успех. Следует отметить, что поисковики такое очень не любят, и, если сайт на подобном попадётся — он, скорее всего, будет выброшен из индекса за мошенничество (поисковые системы трактуют это именно так).

4) Поисковые роботы не умеют полноценно индексировать динамичный контент. Речь о видеофайлах, об анимированных GIF и о некоторых иных видах анимации. Если изображения они научились распознавать (то есть, примерно понимать, что на них изображено даже без дополнительных пояснений и классифицировать это соответствующим образом) — то с анимацией и видео пока что ситуация иная. Даже анимированный GIF классифицируется в основном по его первому кадру, «обложке»; но ведь дальнейшие кадры могут быть на сильно иную тему. Что же говорить о видео длительностью хотя бы в минуты?.. А вот человек, особенно если он готов ждать, тратить на это время — способен разобраться в содержимом. Поэтому современную Captcha иногда делают именно в виде анимации или коротенького лёгкого видеофайла — их-то никакие роботы пока что распознавать не способны.

5) Поисковые роботы умеют учитывать то, что большинство людей не видит или на что люди не обращают внимания. А вот это уже преимущества роботов — они способны считывать техническую информацию, на которую люди не обращают внимания или (чаще) о существовании которой даже не подозревают. Это может быть время последней модификации страницы, служебные данные в фотографии (на какой фотоаппарат она была сделана, когда и где), использование латиницы вместо кириллицы или наоборот — подмена похожих букв на аналогичные из другого алфавита — и т.д. Вся эта информация может далее использоваться роботом для модификации своего поведения (например, для перехода по URL-адресам, прописанным внутри файлов изображений, такие сведения там тоже могут встретиться).

И помните, современные проблемы требуют современных решений!❤️