Найти тему
discript

Подробная настройка программы Screaming Frog SEO Spider

Оглавление

Всем привет!

Сегодня разберем настройки программы Screaming Frog SEO Spider.

Screaming Frog - краулер (Crawler), сканирующий URL-адреса сайта. SEO Spider помогает получить полезную информацию для проведения технического аудита.

Особенности программы:

1. Для работы программы требуется установка JAVA;

2. При сканировании используется оперативная память, поэтому при работе с большими сайтами потребуется увеличить объем памяти, которую выделяем для ПО. (В одной из следующих статей расскажу, как увеличить объем используемой памяти для Screaming Frog)

Настройка Screaming Frog:

Configuration

1. Basic

Заходим Configuration > Spider > Basic

-2

Во вкладке отмечаем файлы, которые будем сканировать: картинки, CSS, JS файлы, внешние ссылки и т.п.

Например, при нехватке оперативной памяти отключение сканирования изображений может помочь решить проблему.

-3

Check Images - параметр, отвечающий за сканирование изображений

Check CSS - параметр, отвечающий за сканирование CSS.

Check JavaScript - параметр, отвечающий за сканирование JavaScript.

Check SWF - параметр, отвечающий за сканирование флеш-ссылки.

Check external links - параметр, отвечающий за сканирование внешних ссылок и/или ресурсов. Это могут быть изображения, CSS, JS, атрибуты hreflang и пр.

Check links outside of start folder - параметр предоставляет возможность обхода в начальной папке запуска, но все равно сканирует ссылки.

Follow internal or external «nofollow» - для сканирования ссылок в теге nofollow отметьте этот параметр.

Crawl all subdomains - для сканирования поддоменов поставьте флажок.

Crawl outside of start folder - по умолчанию SEO Spider будет сканировать только подпапку. Данная функция нужна для сканирования всего сайта при условии, что скнирование начинается с поддомена.

Crawl canonicals - параметр отвечает за сканирование canonical.

Crawl next / prev - параметр отвечает за сканирование rel = "next" и rel = "prev" параметров. Для сканирования таких страниц необходимо отметить параметр флажком.

2. Limits

-4

Вкладка Limits отвечает за настройки лимитов на санирование URL.

Limit Crawl Total - число просканированных адресов.

Для сканирования сайта полностью рекомендую убирать данную настройку, если задать определенный лимит, то как краулер остановится достигнув заданного числа.

Limit Crawl Depth - параметр уровня вложенности сканирования.

Указав уровень вложенности 1, Screaming Frog выдаст все URL УВ от введенного документа.

Например, если указать главную страницу и в Limit Crawl Depth добавить значение 1 , то паук перейдет по всем ссылкам с главной страницы и остановится. При параметре со значением 0 будет проверен только указанный документ.

Limit Max Folder Depth - глубина сканирования по папкам.

Параметр отвечает, как глубоко может сканировать сайт по адресу URL site.ru/papka-1/papka-2/papka-3/, где число это параметр Limit Max Folder Depth.

3. Rendering

Во вкладке Rendering настраиваем параметры сканирования JS кода.

-5

Для сканирования JS файлов выберите в настройках JavaScript .

Внимание: это может увеличить время сканирования и вес итогового файла)

4. Advanced

Разберем расширенные настройки Паука

-6

Allow cookies

По умолчанию SEO Spider не использует файлы cookie. Для задач, где использование файлов cookies необходимо, отмечаем данное поле. Данная функция используется не часто, и у себя её не отмечаю.

Pause on high memory usage

Screaming Frog автоматически приостанавливается, когда паук достиг максимума разрешенной памяти и отображает сообщение «о заполнении памяти».

Always follow redirects

Эта функция указывает SEO-пауку переходить по редиректам до того момента, пока не попадет на страницу с кодом ответа 200 ОК.

Respect noindex

Этот параметр удаляет все URL-адреса с «noindex».

Respect canonical

Этот параметр удаляет все канонические страницы из отчета.

Respect Next/Prev

Этот параметр фиксирует URL-адреса с параметром rel = "prev", о которых не сообщается в SEO Spider.

Extract Images From img srcset Attribute

Если параметр включен, то будут извлекаться изображения из атрибута srcset тега <img>.

Response timeout

По умолчанию SEO Spider будет ждать 20 секунд, чтобы получить код ответа от URL-адреса. Вы можете увеличить продолжительность ожидания ответа от сайта. Увеличение времени пригодиться для очень медленных веб-сайтов.

5XX Response Retries

Этот параметр позволяет повторно проверять страницы, отдавшие 5XX код. Часто код 5ХХ может быть вызван перегрузкой сервера и повторное сканирование URL-адреса может дать ответ 2XX.

Max redirects to follow

Фиксируем максимальное число переадресаций, по которым будет переходить SEO Spider при 30Х коде ответа.

5. Preferences

В данном блоке настроек задается диапазон размеров тегов, меты и заголовков h1, h2, которые будут считаться допустимыми.

Дополнительно на этой вкладке указывается максимально допустимый размер URL в символах, максимальный размер ALT у изображений и вес изображения.

-7

На изображении представлены рекомендуемые настройки для тегов Title, Description, H1

Разобрав настройки паука (Configuration > Spider) переходим к следующим параметрам.

Настройка обработки файла robots.txt

Для определения параметров обработки robots заходим во вкладку Configuration > robots.txt > Settings

-8

Перед Вам появиться следующее окно:

-9

В данном окне всего 3 параметра:

1. Игнорирование файла robots.txt.

Паук не будет сканировать сайт, если индексация запрещена в robots.txt. Эта опция позволяет игнорировать этот протокол.

2. Отображение внутренних URL, заблокированных в файле robots.txt

Внутренние URL заблокированные в robots.txt будут отображаться во вкладке " Internal " с кодом ответа "0"и статусом "Blocked by Robots.txt" заблокирован в файле robots.txt. Чтобы скрыть эти URL в интерфейсе, снимаем флажок.

3. Отображение внешних URL, заблокированных в файле robots.txt

Аналогично пункту 2, но только для внешних ссылок.

Опции Include/Exclude

Во вкладках Configuration > Include и Configuration > Exclude

Опции позволяют с помощью регулярных выражений указывать, какие URL сканировать либо исключать из анализа.

Чаще всего данные вкладки использую, когда проверить весь сайт полностью не получается из-за его размера. В этом случае проверку выполняем по разделам.

Скорость сканирования - Speed

Конфигурация Speed контролирует скорость сканирования SEO Spider.

Для настройки скорости сканирования переходим во вкладку Configuration > Speed.

-10

Max Threads - указываем число одновременных подключений. Чем больше значение, тем быстрее скорость сканирование. Обычно данный параметр оставляю не тронутым, а уменьшаю в том случае, если при сканировании сервер начинает отдавать 503 код.

Внимание, чем больше данный параметр, тем выше вероятность, того что сервер паук будет перегружать сервер и скорость ответа уменьшится.

Max URL/s - отвечает за число URL сканируемых за 1 секунду. Использую в редких случаях, когда сайт находится на слабом сервере.

User-agent

Вы можете настроить «User-Agent» в разделе « Configuration > User-Agent ».

Screaming Frog имеет встроенные параметры агентов для Googlebot, Yandex, Googlebot-Mobile, и др. Дополнительно можете настраивать собственного пользовательского агента.

Данной настройкой пользуюсь при сравнении десктопной и мобильной версии сайта.

Пользовательские настройки поиска, при помощи регулярных выражений, находят требуемые участки кода.

-11

Страницы, найденные по заданным параметрам, отображаются в соответствующей вкладке.

-12

Внимание:

1. Если не используете режим рендеринга JavaScript, то Custom Search проверяет только исходный HTML код.

2. Custom Search нечувствителен к регистру.

3. Для того, чтобы настройки не пропали, до перезапуска программы их необходимо сохранить, как это сделать указано на изображении ниже.

-13