56 подписчиков

Анализ лог-файлов для SEO: как читать поведение ботов и находить скрытые проблемы краулинга

9 марта9 мар

7 мин

Стандартные счетчики Яндекс.Метрики и Google Analytics создают ложную картину идеального технического состояния сайта. Они фиксируют действия живых пользователей в браузерах с включенным JavaScript. Поисковые роботы видят ресурс иначе, часто игнорируют скрипты и утыкаются в тупики, о которых вебмастер даже не подозревает. Продвинутый технический аудит сайта начинается там, где заканчиваются отчеты аналитики. Серверные журналы показывают абсолютную и нефильтрованную правду о каждом запросе к вашему ресурсу. Серверный лог работает как камера видеонаблюдения. Он беспристрастно записывает каждый чих: кто пришел, когда, какой файл запросил и какой ответ получил. Анализ лог-файлов экономит время SEO-специалиста и деньги бизнеса за счет прямого контроля над тем, как поисковики обходят сайт. Отслеживание этих данных решает пять прямых задач: Новичка пугает черный экран с бесконечным потоком текста. На деле лог-файл имеет жесткую табличную структуру. Возьмем типичную строку журнала серверов: 66

Оглавление

Анатомия серверного лога: препарируем строку
Инструменты: Как анализировать логи сервера
Отлов фейковых ботов через Reverse DNS

Серверный лог работает как камера видеонаблюдения. Он беспристрастно записывает каждый чих: кто пришел, когда, какой файл запросил и какой ответ получил. Анализ лог-файлов экономит время SEO-специалиста и деньги бизнеса за счет прямого контроля над тем, как поисковики обходят сайт.

Отслеживание этих данных решает пять прямых задач:

Выявление реальных ошибок 4xx и 5xx, с которыми сталкиваются боты, а не пользователи.
Подсчет точной частоты краулинга конкретных директорий.
Определение приоритетов поисковых систем – какие разделы они считают ценными, а какие забрасывают.
Отслеживание циклических или длинных цепочек редиректов.
Спасение лимитов на сканирование страниц.

Анатомия серверного лога: препарируем строку

Новичка пугает черный экран с бесконечным потоком текста. На деле лог-файл имеет жесткую табличную структуру. Возьмем типичную строку журнала серверов:

66.249.66.1 - - [14/Oct/2023:14:02:11 +0300] "GET /category/shoes/ HTTP/1.1" 200 5143 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Разберем параметры на составляющие:

66.249.66.1 – IP-адрес клиента. Адрес машины, отправившей запрос.
[14/Oct/2023:14:02:11 +0300] – точное время с указанием часового пояса. Показывает хронологию обхода сайта.
GET – HTTP-метод. GET означает чтение документа, POST – передачу данных. Поисковики используют GET.
/category/shoes/ – URL-адрес запрошенного документа.
200 – код ответа сервера. Маркер успешности запроса. Цифра 200 означает норму, 404 – страница не найдена, 500 – сервер упал.
Mozilla/5.0 (compatible; Googlebot/2.1...) – User-Agent. Текстовый идентификатор робота или браузера. На него ориентируются сервера при выдаче контента.

Инструменты: Как анализировать логи сервера

Смотреть сырые текстовые файлы через блокнот бессмысленно. Данные необходимо структурировать. Выбор инструмента зависит от объема файла и вашей технической подготовки.

Для быстрых аудитов и больших объемов данных лучше всего подходит Screaming Frog Log File Analyser. Программа создана специально для SEO-задач. Вы просто перетаскиваете лог-файл в окно приложения, а оно автоматически распознает форматы, фильтрует живых пользователей от ботов Яндекса и Google, строит графики по статус-кодам и выводит самые сканируемые URL. Это лучший старт для специалиста – интерфейс графический, знание программирования не требуется.

Если файл небольшой (до 100 тысяч строк) – используйте Gogole таблицы. Для превращения каши текста в таблицу работает стандартный инструмент разделения:

Откройте пустой лист.
Вставьте скопированные строки лога в столбец A.
Выделите столбец, перейдите во вкладку «Данные» и нажмите «Текст по столбцам».
Выберите формат «С разделителями», укажите пробел в качестве разделителя.

Система разобьет строку на колонки. Если нужно вытащить конкретный код ответа сервера из середины строки без жесткого разделения по столбцам, используйте связку формул:
=ПСТР(A1; НАЙТИ("HTTP/1.1"" "; A1) + 10; 3)
Эта формула находит маркер версии протокола и извлекает ровно три символа после него – тот самый код ответа.

Отлов фейковых ботов через Reverse DNS

Многие начинающие SEO-специалисты слепо верят столбцу User-Agent. Если там написано Googlebot, они считают визит легитимным. Коммерческие парсеры конкурентов, сервисы аналитики и вредоносные скрипты массово подделывают этот заголовок. Они маскируются под поисковых ботов, чтобы обходить блокировки в файле .htaccess. Это искажает статистику и перегружает сервер.

Отличить настоящего бота от самозванца помогает обратный DNS-запрос (Reverse DNS). Метод работает прямо из командной строки вашего компьютера.

Инструкция для ОС Windows:

Фильтруете в Excel все IP-адреса, которые представлялись как Googlebot или YandexBot.
Открываете терминал (сочетание клавиш Win+R, ввести cmd или command+пробел, ввести терминал).
Вводите команду nslookup и через пробел вставляете подозрительный IP-адрес. Пример: nslookup 66.249.66.1.
Смотрите на строку Name в ответе.

У настоящего робота Google адрес хоста обязательно оканчивается на googlebot.com или google.com. У Яндекса – на yandex.com или yandex.ru. Если терминал выдает домен какого-то облачного хостинга (вроде Amazon AWS или DigitalOcean), а User-Agent кричит, что это Google – перед вами парсер. Выделяйте такие IP и отправляйте системному администратору для жесткой блокировки на уровне фаервола.

Краулинговый бюджет сайта: где поисковики жгут лимиты

Поисковые системы – это коммерческие компании с ограниченными серверными мощностями. Они выделяют конкретный лимит на сканирование каждого домена (Crawl Budget). Если робот тратит ваш бюджет на обход мусорных страниц, до новых статей или товаров он просто не дойдет. Влияние на сканирование и индексация здесь прямое: нет бюджета – нет позиций в выдаче.

Анализ лог-файлов вскрывает главных «пожирателей» лимитов. В практике регулярно встречаются классические ловушки для краулеров (Crawl Traps), которые зацикливают бота.

Бесконечные онлайн-календари
Формы бронирования со ссылками «Следующий месяц» генерируют страницы до 3000 года. Робот будет переходить по ссылкам ?month=11&year=2024, ?month=12&year=2024 бесконечно. Вы увидите в логах тысячи обращений к календарю, пока полезные разделы сайта простаивают. Решение – закрыть параметры календаря через robots.txt или использовать атрибут rel="nofollow".

Динамические фильтры интернет-магазинов
Умный фильтр с комбинациями параметров создает миллионы уникальных URL. Робот последовательно сканирует «красные кроссовки 42 размера для бега со скидкой». В логах это отображается как лавина GET-запросов с длинными хвостами параметров. Решение – запретить обход для пересечений более двух параметров фильтра.

Дыры в архитектуре и UTM-метки
Некорректная настройка внутренней перелинковки приводит к тому, что бот ходит по ссылкам с ?utm_source=banner. Такие URL отдают дублированный контент. В серверном журнале они проявляются моментально.

Поиск страниц-сирот: скрещиваем логи и парсинг

Изолированное изучение логов дает лишь половину картины. Высший пилотаж – сопоставить данные логов с реальной структурой сайта. Этот метод находит страницы-сироты. Это URL-адреса, на которые нет ни одной внутренней ссылки из меню или текста, но поисковик их где-то находит и регулярно сканирует.

Как объединить данные:

Запустите полный парсинг сайта через Screaming Frog SEO Spider. Сохраните выгрузку всех найденных URL-адресов со статусом 200.
Выгрузите из ваших серверных логов список всех уникальных URL, к которым обращались поисковые боты за последний месяц.
Откройте Excel и поместите списки на два соседних листа.
Используйте функцию ВПР (VLOOKUP). Сопоставьте список URL из логов со списком URL из парсера.

Вы получите группу адресов, которые есть в логах, но которых не нашел SEO Spider. Бот Яндекса или Google помнит их со старых времен, находит через внешние ссылки или читает из некорректно сгенерированного Sitemap. Поведение поисковых ботов здесь выдает скрытые разделы старой версии сайта, забытые тестовые директории рекламных кампаний или брошенные посадочные страницы.

Дальнейшие действия зависят от типа страницы-сироты. Полезный контент нужно встроить в общую иерархию сайта (дать на него ссылки). Удаленные и устаревшие товары – перенастроить 301 редиректом на релевантные категории, чтобы заставить краулера сохранить ссылочный вес и перестать долбиться в закрытую дверь.

FAQ

Как часто нужно запрашивать логи у программистов?
Для крупных интернет-магазинов или новостных порталов с ежедневным обновлением данных мониторинг проводится раз в 2–4 недели по опыту. Для блогов и корпоративных сайтов на 10-50 страниц достаточно заглядывать в серверные журналы раз в полгода или при резком падении позиций.

Где физически лежат лог-файлы?
Место хранения зависит от настроек сервера. На NGINX они стандартно обитают в /var/log/nginx/access.log. На Apache – в /var/log/apache2/access.log. Запрашивайте у техподдержки хостинга именно необработанные "raw access logs".

Какой период анализировать для достоверной статистики?
Требуется выгрузка минимум за 30 дней. Поисковые машины обходят сайты с разной скоростью. Если вы возьмете лог за 3 дня, вы пропустите редкие визиты специализированных краулеров (например, ботов по проверке мобильной версии или поддоменов) и сделаете ошибочные выводы о сканировании сайта.