Найти в Дзене
Ебашим в топ

Screaming Frog для анализа сайтов: от базовых функций до продвинутых техник

Screaming Frog SEO Spider — это не просто краулер для проверки технических ошибок. Это швейцарский нож сеошника, который умеет парсить контент конкурентов, извлекать структуру сайтов, анализировать миллионы страниц, обходить защиту от сканирования и делать десятки других задач, о которых многие даже не подозревают. Проблема в том, что 90% пользователей используют программу на 10% её возможностей. Типичный сценарий работы выглядит так: запустили сканирование, получили список страниц с ошибками 404, исправили, закрыли программу. Всё. А между тем Screaming Frog может заменить половину платных сервисов для SEO-анализа, если знать как с ним работать. Можно спарсить всю структуру конкурента за 10 минут, извлечь любой контент со страниц через XPath, проанализировать логи сервера, обойти защиту CloudFlare, собрать все внешние ссылки — и это далеко не полный список. Большинство ограничений, с которыми сталкиваются пользователи, связаны не с возможностями программы, а с незнанием её настроек. Ст
Оглавление

Screaming Frog SEO Spider — это не просто краулер для проверки технических ошибок. Это швейцарский нож сеошника, который умеет парсить контент конкурентов, извлекать структуру сайтов, анализировать миллионы страниц, обходить защиту от сканирования и делать десятки других задач, о которых многие даже не подозревают. Проблема в том, что 90% пользователей используют программу на 10% её возможностей.

Типичный сценарий работы выглядит так: запустили сканирование, получили список страниц с ошибками 404, исправили, закрыли программу. Всё. А между тем Screaming Frog может заменить половину платных сервисов для SEO-анализа, если знать как с ним работать. Можно спарсить всю структуру конкурента за 10 минут, извлечь любой контент со страниц через XPath, проанализировать логи сервера, обойти защиту CloudFlare, собрать все внешние ссылки — и это далеко не полный список.

Большинство ограничений, с которыми сталкиваются пользователи, связаны не с возможностями программы, а с незнанием её настроек. Стандартная конфигурация рассчитана на небольшие сайты до 10-20 тысяч страниц. Попытка сканировать миллионник приведет к зависанию компьютера. Но если правильно настроить память, потоки, лимиты — программа спокойно обработает любой объем.

Есть еще одна проблема. Screaming Frog — это инструмент, который требует понимания того, что вы ищете и зачем. Запустить сканирование может кто угодно. А вот извлечь пользу из полученных данных — только тот, кто знает куда смотреть и какие метрики важны для конкретной задачи. Программа не даст готовых ответов, она даст данные. Ваша задача — правильно их интерпретировать.

Разберем конкретные кейсы и настройки, которые превращают Screaming Frog из простого краулера в мощный инструмент конкурентного анализа и технического аудита.

ТОП-4 сервиса для накрутки поведенческих факторов

Технический аудит через Screaming Frog работает эффективнее когда сайт дополнительно усилен поведенческими сигналами. Проверенные сервисы:

  1. Seopapa — премиальный сервис с реальными отпечатками браузеров и 7 днями бесплатного тестирования, подходит для профессионалов и агентств
  2. Monstro — Windows-приложение для полного контроля процесса накрутки и тонкой настройки поведения ботов
  3. DailyPFBot — простой Telegram-бот с оплатой 3 руб/клик, идеально для новичков и небольших проектов
  4. Умный Сервис — новое решение с ИИ-ботами и видимостью в Яндекс.Метрике, бесплатный тест 5 дней, от 130 руб/сутки

Тюнинг Screaming Frog для больших сайтов

Стандартные настройки программы рассчитаны на анализ небольших проектов. Когда пытаетесь просканировать сайт на несколько сотен тысяч или миллионов страниц, возникают проблемы: программа виснет, компьютер тормозит, сканирование идет часами.

Первое что нужно сделать — увеличить выделенную память. По умолчанию Screaming Frog использует 2 ГБ RAM. Для больших проектов это капля в море. Заходите в Configuration → System → Memory, выставляете максимально доступный объем. Для сайтов на миллион+ страниц нужно минимум 8-16 ГБ.

Второй момент — количество потоков. Configuration → Speed → Max Threads. Стандартно стоит 5 потоков. Можно поднять до 10-20, если сервер конкурента выдерживает нагрузку. Но осторожно: слишком агрессивное сканирование может привести к бану вашего IP.

Третий момент — лимиты на сканирование. Limits позволяет ограничить глубину обхода, количество сканируемых страниц, размер файлов. Если вам не нужны все страницы, а только определенные разделы — используйте Include/Exclude фильтры через регулярные выражения.

Правильная настройка памяти и потоков позволяет сканировать миллионы страниц без зависания компьютера.

Для экономии ресурсов отключайте ненужные функции. Configuration → Spider → Rendering. Если не анализируете JavaScript-сайты, отключайте рендеринг. Configuration → Spider → Images — отключайте загрузку изображений, если они не нужны для анализа.

Также полезно использовать режим List Mode вместо Spider Mode. В List Mode вы загружаете готовый список URL и программа проверяет только их, не переходя по ссылкам. Это существенно ускоряет работу когда нужно проверить конкретные страницы.

Парсинг структуры конкурентов за 10 минут

Классический способ анализа структуры — это переход в раздел Site Structure в программе после сканирования. Screaming Frog визуализирует уровни вложенности по URL. Работает отлично для сайтов с древовидной структурой типа: site.ru/category/subcategory/page/

Но что делать если у конкурента плоская структура? Когда все категории на втором уровне: site.ru/category-1/, site.ru/category-2/, site.ru/product-name/. Обычная визуализация не покажет иерархию. Здесь в игру вступают хлебные крошки.

Хлебные крошки — это навигационная цепочка на странице: Главная → Категория → Подкатегория → Товар. Они есть практически на всех нормальных сайтах. И через XPath можно извлечь всю иерархию независимо от структуры URL.

Алгоритм простой. Находите на сайте конкурента хлебные крошки. Правой кнопкой на элемент → Посмотреть код. В открывшемся окне кликаете правой кнопкой по коду с анкорной ссылкой элемента → Copy → XPath. Получаете что-то вроде: /html/body/div[2]/div[2]/a[1]

Открываете Screaming Frog, переходите в Configuration → Custom → Extraction. Нажимаете Add → XPath, вставляете скопированный путь. Меняете в конце [1] на [*] — это означает что нужны все элементы, а не только первый.

Последний элемент хлебных крошек часто не в ссылке, а в теге span. Для него добавляете отдельное правило: /html/body/div[2]/div[2]/span. Запускаете парсинг. Теперь у вас список всех страниц с полной понятной иерархией.

Эта техника работает даже на агрегаторах с десятками тысяч категорий. За 10-15 минут получаете полную структуру проекта, которую вручную собирать пришлось бы неделю.

XPath — ключ к извлечению любых данных

XPath — это язык запросов для навигации по XML-документам. В контексте Screaming Frog он позволяет извлечь абсолютно любой контент со страниц: тексты, цены, характеристики, отзывы, что угодно.

Базовый принцип: находите нужный элемент на странице через инспектор кода, копируете XPath, добавляете в Screaming Frog как правило извлечения. Программа пройдет по всем страницам и соберет указанные данные.

Пример. Нужно собрать все цены с категорий интернет-магазина конкурента. Открываете любую категорию, находите цену товара, правой кнопкой → Посмотреть код → Copy XPath. Получаете путь к элементу с ценой.

Проблема в том, что скопированный XPath часто содержит динамические классы или ID, которые меняются от страницы к странице. Нужно уметь обобщать путь. Например, вместо конкретного класса "price-12345" использовать условие "содержит слово price".

Базовая шпаргалка по XPath:

  • // — поиск на любом уровне вложенности
  • / — поиск на конкретном уровне
  • [@attribute='value'] — фильтр по атрибуту
  • [contains(@class,'text')] — содержит текст в классе
  • //h1/text() — извлечь текст из H1

Для массового извлечения метатегов полезны такие пути:

  • //title — извлечение Title
  • //meta[@name='description']/@content — Description
  • //h1 — заголовок H1

С помощью XPath можно извлекать не только видимый контент, но и структурированные данные: микроразметку, JSON-LD, Open Graph теги. Это даёт полную картину того, как конкурент структурирует информацию для поисковиков.

Обход защиты сайтов от сканирования

Многие сайты блокируют сканирование роботами через защиту CloudFlare, Incapsula или собственные решения. Screaming Frog определяется как бот и получает блокировку.

Первый способ обхода — смена User-Agent. Configuration → User-Agent → выбираете браузер типа Chrome или Firefox. Программа начнет представляться обычным браузером, а не ботом. Это помогает в большинстве случаев.

Второй способ — использование прокси или VPN. Configuration → API Access → Proxy. Настраиваете прокси-сервер, через который пойдет трафик. Полезно когда ваш IP уже забанен или сайт ограничивает доступ по географии.

Третий способ — режим рендеринга JavaScript. Configuration → Spider → Rendering → Enable JavaScript Rendering. Screaming Frog запустит встроенный браузерный движок и будет сканировать сайт так же как настоящий браузер. Это обходит почти все защиты, но требует больше ресурсов.

Четвертый способ — снижение скорости сканирования. Configuration → Speed → выставляете минимальное количество потоков и добавляете задержку между запросами. Медленное сканирование меньше похоже на бота и реже вызывает блокировку.

Самый надежный способ обхода защиты — комбинация всех методов: прокси + смена User-Agent + рендеринг JS + низкая скорость.

Если сайт защищен капчей, обойти её программно не получится. Но можно использовать режим List Mode: открываете сайт в браузере, проходите капчу, копируете cookies, импортируете в Screaming Frog через Configuration → Spider → Authentication.

Сканирование SPA-сайтов на JavaScript

Single Page Applications (SPA) — это сайты, где контент генерируется через JavaScript. При обычном сканировании Screaming Frog видит только пустую HTML-оболочку без контента. Классический пример — сайты на React, Vue, Angular.

Для сканирования SPA нужно включить рендеринг JavaScript. Configuration → Spider → Rendering → JavaScript Rendering → Enable. Программа запустит встроенный движок Chromium и будет выполнять JavaScript перед извлечением контента.

Важные настройки для SPA:

  • AJAX Timeout — время ожидания загрузки контента, по умолчанию 5 секунд. Для медленных сайтов увеличиваете до 10-15 секунд.
  • Wait for AJAX — ждать завершения всех AJAX-запросов перед сканированием следующей страницы.
  • Text Rendered — показывать контент после рендеринга, а не исходный HTML.

После включения рендеринга в интерфейсе появится новая вкладка Rendered Page. Там вы увидите как страница выглядит после выполнения JavaScript — со всем контентом, который генерируется динамически.

Минус рендеринга — сканирование становится значительно медленнее и требует больше ресурсов. Для сайта на 100 тысяч страниц может потребоваться несколько дней непрерывной работы. Поэтому рендеринг включают только когда это действительно необходимо.

Альтернативный вариант для анализа SPA — использовать API сайта, если он доступен. Многие современные сайты отдают данные через REST API в формате JSON. Это быстрее и эффективнее чем рендеринг всех страниц.

Анализ внешних ссылок через Screaming Frog

Кроме сканирования своего сайта, программа умеет анализировать внешние ссылки. Это полезно для проверки куда ссылаются конкуренты, какие площадки используют для размещений, как выглядит их ссылочный профиль.

Mode → List → вставляете список URL с ссылками (можно выгрузить из Ahrefs, Majestic или других сервисов). Screaming Frog проверит каждую ссылку: статус код, Title страницы, наличие вашей ссылки на странице, анкор.

Configuration → Spider → Advanced → Always Follow Redirects — полезная опция для отслеживания редиректов. Если ссылка ведет через 301 редирект, программа покажет конечный URL.

Bulk Export → All Outlinks — экспортирует все исходящие ссылки со всех просканированных страниц. Получаете полную карту того, куда ссылается сайт. Можно фильтровать по внутренним и внешним, по статусам, по типам ссылок.

Для проверки качества купленных ссылок эта функция незаменима. Загружаете список площадок, на которых разместились. Screaming Frog проверяет: стоит ли ваша ссылка, какой анкор использован, есть ли атрибуты nofollow/sponsored, куда еще ссылается страница.

Если обнаруживаете, что купленные ссылки массово удалены или заменены на nofollow — это сигнал о недобросовестности площадки или исполнителя.

Анализ логов сервера для SEO

Screaming Frog умеет анализировать логи сервера и показывать как поисковые боты сканируют ваш сайт. Это продвинутая функция, которую используют единицы, но она дает уникальные инсайты.

File → Open → Log Files → выбираете файл лога. Программа обработает запросы и покажет статистику: какие страницы сканировались, когда, каким ботом, какой ответ сервера был получен.

Зачем это нужно? Во-первых, можно увидеть проблемы с краулинговым бюджетом. Если Googlebot тратит время на сканирование технических страниц, которые не должны быть в индексе — это потеря бюджета. Нужно закрывать такие страницы в robots.txt.

Во-вторых, можно обнаружить страницы, которые боты вообще не сканируют. Если важная категория не появляется в логах месяцами — значит до нее нет нормальных путей обхода. Нужно улучшать перелинковку.

В-третьих, можно отследить ошибки 4xx и 5xx, которые получают боты. Если поисковик регулярно натыкается на 500-е ошибки при сканировании — это сигнал о проблемах с сервером.

Логи помогают понять реальную картину: не то как сайт выглядит в браузере, а как его видят поисковые роботы. Это две большие разницы.

Массовая выгрузка данных для оптимизации

Одно из главных преимуществ Screaming Frog — возможность массовой выгрузки данных для дальнейшей обработки. Это критически важно для больших сайтов.

Типичная задача: нужно оптимизировать метатеги на 10 тысячах страниц. Screaming Frog сканирует сайт, выгружаете через Bulk Export список всех URL с их Title, Description, H1. Получаете CSV-файл.

Открываете в Excel или Google Sheets, анализируете: какие Title слишком длинные, какие слишком короткие, где дубликаты, где Title не содержит ключевые слова. Формируете новые варианты, загружаете на сайт массово через парсер или API.

Другая задача: нужно проверить уникальность контента в текстовых блоках на тысячах категорий. Через XPath выгружаете весь текст, прогоняете через сервис проверки уникальности. Находите дубли, помечаете на доработку.

Третья задача: нужно собрать все изображения без alt-тегов. Screaming Frog показывает это во вкладке Images → Missing Alt Text. Экспортируете список, передаете на доработку контент-менеджеру.

Возможности экспорта огромные: URL, статус коды, Title, метатеги, заголовки всех уровней, текст страниц, изображения с атрибутами, ссылки внутренние и внешние, данные из XML-карты, скорость загрузки страниц, размер HTML.

Всё это можно выгрузить одной кнопкой Bulk Export → All и получить полную карту сайта для дальнейшего анализа.

Проверка технических проблем

Базовый функционал Screaming Frog — поиск технических ошибок. После сканирования смотрите на вкладки Response Codes. Красным подсвечиваются ошибки 4xx и 5xx, желтым — редиректы 3xx.

Ошибки 404 — страницы не найдены. Нужно либо восстановить контент, либо настроить 301 редирект на актуальную страницу, либо если страница действительно должна быть удалена — убрать на неё все внутренние ссылки.

Ошибки 5xx — проблемы на сервере. Если таких страниц много — это сигнал о серьезных технических проблемах. Нужно разбираться с хостингом.

Редиректы 301/302 — не всегда плохо, но длинные цепочки редиректов (3-4-5 шагов) тормозят загрузку и едят краулинговый бюджет. Screaming Frog показывает цепочки, их нужно сокращать до одного редиректа.

Дубли Title/Description — вкладка Page Titles → Filter → Duplicate. Показывает все страницы с одинаковыми метатегами. Это плохо для SEO, каждая страница должна иметь уникальные метатеги.

Страницы без Title — критическая ошибка. Вкладка Page Titles → Filter → Missing. Все такие страницы нужно срочно исправить.

Битые ссылки — вкладка Response Codes → Filter → Client Error (4xx). Показывает внутренние ссылки, которые ведут на несуществующие страницы. Нужно либо исправить ссылки, либо создать недостающие страницы.

Типичные ошибки при работе с программой

Первая ошибка — сканировать всё подряд без настройки фильтров. Результат: программа тратит часы на обход ненужных разделов, забивает память техническими страницами. Всегда используйте Include/Exclude для ограничения области сканирования.

Вторая ошибка — не увеличивать память для больших сайтов. При попытке сканировать 100+ тысяч страниц на стандартных 2 ГБ программа виснет. Нужно выделять больше RAM.

Третья ошибка — игнорировать robots.txt. По умолчанию Screaming Frog соблюдает правила robots.txt. Если там закрыт доступ к нужным разделам — программа их не просканирует. Configuration → Spider → Robots.txt → Ignore Robots.txt если нужно сканировать всё.

Четвертая ошибка — не использовать режимы Spider и List по назначению. Spider Mode для полного обхода сайта, List Mode для проверки конкретного списка URL. Использование Spider Mode для проверки отдельных страниц — пустая трата времени.

Пятая ошибка — не сохранять настройки сканирования. Если настроили кучу правил XPath, фильтров, параметров — сохраните конфигурацию. File → Save Configuration. При следующем сканировании просто загрузите сохраненный профиль.

Шестая ошибка — забывать про лимит в 500 URL в бесплатной версии. Для анализа больших проектов нужна лицензия. Она стоит разумных денег и окупается за первую же серьезную задачу.

Screaming Frog SEO Spider — это не просто программа для поиска 404 ошибок. Это полноценная платформа для технического анализа, парсинга конкурентов, массового сбора данных. Основное преимущество — гибкость и возможность настройки под любые задачи. Освойте XPath для извлечения данных, научитесь правильно настраивать память и потоки для больших проектов, используйте режимы Spider и List по назначению. Программа заменит вам десяток платных сервисов если разобраться во всех её возможностях. Главное помните: Screaming Frog даёт данные, а ваша задача — правильно их интерпретировать и применять для улучшения сайта.