18 подписчиков

Подробная настройка программы Screaming Frog SEO Spider

23 апреля 201823 апр 2018

1473

6 мин

Оглавление

Настройка Screaming Frog:
Configuration
1. Basic

Всем привет!

Сегодня разберем настройки программы Screaming Frog SEO Spider.

Screaming Frog - краулер (Crawler), сканирующий URL-адреса сайта. SEO Spider помогает получить полезную информацию для проведения технического аудита.

Особенности программы:

1. Для работы программы требуется установка JAVA;

2. При сканировании используется оперативная память, поэтому при работе с большими сайтами потребуется увеличить объем памяти, которую выделяем для ПО. (В одной из следующих статей расскажу, как увеличить объем используемой памяти для Screaming Frog)

Настройка Screaming Frog:

Configuration

1. Basic

Заходим Configuration > Spider > Basic

Во вкладке отмечаем файлы, которые будем сканировать: картинки, CSS, JS файлы, внешние ссылки и т.п.

Например, при нехватке оперативной памяти отключение сканирования изображений может помочь решить проблему.

Check Images - параметр, отвечающий за сканирование изображений

Check CSS - параметр, отвечающий за сканирование CSS.

Check JavaScript - параметр, отвечающий за сканирование JavaScript.

Check SWF - параметр, отвечающий за сканирование флеш-ссылки.

Check external links - параметр, отвечающий за сканирование внешних ссылок и/или ресурсов. Это могут быть изображения, CSS, JS, атрибуты hreflang и пр.

Check links outside of start folder - параметр предоставляет возможность обхода в начальной папке запуска, но все равно сканирует ссылки.

Follow internal or external «nofollow» - для сканирования ссылок в теге nofollow отметьте этот параметр.

Crawl all subdomains - для сканирования поддоменов поставьте флажок.

Crawl outside of start folder - по умолчанию SEO Spider будет сканировать только подпапку. Данная функция нужна для сканирования всего сайта при условии, что скнирование начинается с поддомена.

Crawl canonicals - параметр отвечает за сканирование canonical.

Crawl next / prev - параметр отвечает за сканирование rel = "next" и rel = "prev" параметров. Для сканирования таких страниц необходимо отметить параметр флажком.

2. Limits

Вкладка Limits отвечает за настройки лимитов на санирование URL.

Limit Crawl Total - число просканированных адресов.

Для сканирования сайта полностью рекомендую убирать данную настройку, если задать определенный лимит, то как краулер остановится достигнув заданного числа.

Limit Crawl Depth - параметр уровня вложенности сканирования.

Указав уровень вложенности 1, Screaming Frog выдаст все URL УВ от введенного документа.

Например, если указать главную страницу и в Limit Crawl Depth добавить значение 1 , то паук перейдет по всем ссылкам с главной страницы и остановится. При параметре со значением 0 будет проверен только указанный документ.

Limit Max Folder Depth - глубина сканирования по папкам.

Параметр отвечает, как глубоко может сканировать сайт по адресу URL site.ru/papka-1/papka-2/papka-3/, где число это параметр Limit Max Folder Depth.

3. Rendering

Во вкладке Rendering настраиваем параметры сканирования JS кода.

Для сканирования JS файлов выберите в настройках JavaScript .

Внимание: это может увеличить время сканирования и вес итогового файла)

4. Advanced

Разберем расширенные настройки Паука

Allow cookies

По умолчанию SEO Spider не использует файлы cookie. Для задач, где использование файлов cookies необходимо, отмечаем данное поле. Данная функция используется не часто, и у себя её не отмечаю.

Pause on high memory usage

Screaming Frog автоматически приостанавливается, когда паук достиг максимума разрешенной памяти и отображает сообщение «о заполнении памяти».

Always follow redirects

Эта функция указывает SEO-пауку переходить по редиректам до того момента, пока не попадет на страницу с кодом ответа 200 ОК.

Respect noindex

Этот параметр удаляет все URL-адреса с «noindex».

Respect canonical

Этот параметр удаляет все канонические страницы из отчета.

Respect Next/Prev

Этот параметр фиксирует URL-адреса с параметром rel = "prev", о которых не сообщается в SEO Spider.

Extract Images From img srcset Attribute

Если параметр включен, то будут извлекаться изображения из атрибута srcset тега <img>.

Response timeout

По умолчанию SEO Spider будет ждать 20 секунд, чтобы получить код ответа от URL-адреса. Вы можете увеличить продолжительность ожидания ответа от сайта. Увеличение времени пригодиться для очень медленных веб-сайтов.

5XX Response Retries

Этот параметр позволяет повторно проверять страницы, отдавшие 5XX код. Часто код 5ХХ может быть вызван перегрузкой сервера и повторное сканирование URL-адреса может дать ответ 2XX.

Max redirects to follow

Фиксируем максимальное число переадресаций, по которым будет переходить SEO Spider при 30Х коде ответа.

5. Preferences

В данном блоке настроек задается диапазон размеров тегов, меты и заголовков h1, h2, которые будут считаться допустимыми.

Дополнительно на этой вкладке указывается максимально допустимый размер URL в символах, максимальный размер ALT у изображений и вес изображения.

На изображении представлены рекомендуемые настройки для тегов Title, Description, H1

Разобрав настройки паука (Configuration > Spider) переходим к следующим параметрам.

Настройка обработки файла robots.txt

Для определения параметров обработки robots заходим во вкладку Configuration > robots.txt > Settings

Перед Вам появиться следующее окно:

В данном окне всего 3 параметра:

1. Игнорирование файла robots.txt.

Паук не будет сканировать сайт, если индексация запрещена в robots.txt. Эта опция позволяет игнорировать этот протокол.

2. Отображение внутренних URL, заблокированных в файле robots.txt

Внутренние URL заблокированные в robots.txt будут отображаться во вкладке " Internal " с кодом ответа "0"и статусом "Blocked by Robots.txt" заблокирован в файле robots.txt. Чтобы скрыть эти URL в интерфейсе, снимаем флажок.

3. Отображение внешних URL, заблокированных в файле robots.txt

Аналогично пункту 2, но только для внешних ссылок.

Опции Include/Exclude

Во вкладках Configuration > Include и Configuration > Exclude

Опции позволяют с помощью регулярных выражений указывать, какие URL сканировать либо исключать из анализа.

Чаще всего данные вкладки использую, когда проверить весь сайт полностью не получается из-за его размера. В этом случае проверку выполняем по разделам.

Скорость сканирования - Speed

Конфигурация Speed контролирует скорость сканирования SEO Spider.

Для настройки скорости сканирования переходим во вкладку Configuration > Speed.

Max Threads - указываем число одновременных подключений. Чем больше значение, тем быстрее скорость сканирование. Обычно данный параметр оставляю не тронутым, а уменьшаю в том случае, если при сканировании сервер начинает отдавать 503 код.

Внимание, чем больше данный параметр, тем выше вероятность, того что сервер паук будет перегружать сервер и скорость ответа уменьшится.

Max URL/s - отвечает за число URL сканируемых за 1 секунду. Использую в редких случаях, когда сайт находится на слабом сервере.

User-agent

Вы можете настроить «User-Agent» в разделе « Configuration > User-Agent ».

Screaming Frog имеет встроенные параметры агентов для Googlebot, Yandex, Googlebot-Mobile, и др. Дополнительно можете настраивать собственного пользовательского агента.

Данной настройкой пользуюсь при сравнении десктопной и мобильной версии сайта.

Custom > Search

Пользовательские настройки поиска, при помощи регулярных выражений, находят требуемые участки кода.

Страницы, найденные по заданным параметрам, отображаются в соответствующей вкладке.

Внимание:

1. Если не используете режим рендеринга JavaScript, то Custom Search проверяет только исходный HTML код.

2. Custom Search нечувствителен к регистру.

3. Для того, чтобы настройки не пропали, до перезапуска программы их необходимо сохранить, как это сделать указано на изображении ниже.