Screaming Frog SEO Spider — это мощный инструмент для SEO-специалистов, который позволяет детально анализировать веб-сайты, выявлять ошибки, оптимизировать страницы и улучшать общие показатели сайта в поисковых системах.
Этот инструмент предоставляет множество функций, начиная от проверки корректности мета-тегов и заканчивая анализом микроразметки, что делает его незаменимым помощником для глубокого анализа сайтов любого масштаба.
В этом руководстве мы разберем ключевые настройки и функции Screaming Frog SEO Spider, которые помогут вам эффективно анализировать и оптимизировать ваш веб-ресурс.
Содержание:
Программа доступна в бесплатной версии (с лимитом в 500 URL и ограниченным функционалом) и платной версии (без ограничений по количеству URL и полным доступом ко всем функциям).
Ссыка на скачивание: https://www.screamingfrog.co.uk/seo-spider/
Для пользователей из Беларуси и России доступ к скачиванию может быть заблокирован, поэтому рекомендуется использовать VPN.
На момент написания статьи актуальной версией программы была v.20.2. Интерфейс может измениться, но ключевые настройки останутся актуальными.
Настройка программы
Настройка использования оперативной памяти
Переходим в File → Settings → Memory Allocation
Рекомендуется 8GB для больших проектов или половина от вашей текущей оперативной памяти.
Настройка места хранения данных
Переходим в File → Settings → Storage Mode
По умолчанию стоит Memory Storage (оперативная память).
Рекомендуется переключится на Database Storage (жесткий диск). Очень важно, чтобы этот диск был SSD, иначе сканирование будет очень долгим.
Установка прокси
Переходим в File → Settings → Proxy
Если ваш IP заблокировал тот сайт, который вы хотите сканировать, можно настроить прокси для обхода блокировки.
Настройка скорости сканирования
Переходим в Configuration → Crawl Config → Speed
Max Threads (количество потоков) оптимально выставлять значение до 5. Если выставить больше, повышается риск получить бан, а также можно перегрузить сайт во время сканирования.
Чем меньше значение потоков, тем медленнее будет проходить сканирование, но при этом снижается риск получить бан.
Limit URL/s (лимит на сканирование URL в секунду) оставляем по умолчанию 2.0. При возникновении проблем, например, частых 5XX ошибок, можно снизить значение до 1.0 или 0.5 для более стабильного сканирования.
Настройка краулера
Переходим в Configuration → Crawl Config → Spider → Crawl
Resource Links и Page Links можно оставить значения по умолчанию.
Check Links Outside of Start Folder позволяет сканировать ссылки за пределами выбранной папки. Например, если вы решили отсканировать вложенную папку (https://site/razdel/), краулер будет проверять и главную страницу, и другие папки. Если вам нужно сканировать только определенный раздел, уберите эту галочку.
Crawl Outside of Start Folder позволяет сканировать все ссылки за пределами выбранной изначально папки. Если она активирована, краулер будет обходить не только содержимое указанной папки, но и весь сайт.
Crawl All Subdomains — обход поддоменов (опционально, если нужно).
Follow Internal/External «nofollow» — обход внутренних/внешних ссылок с nofollow (опционально, если нужно).
Crawl Linked XML Sitemaps (сканировать XML карту сайта) обязательно включаем, так как не всегда на все страницы сайта есть внутренние ссылки. Это поможет найти и проанализировать такие страницы.
Auto Discover XML Sitemap via robots.txt позволяет автоматически получать XML карту сайта из файла robots.txt. Это удобно, так как не нужно вручную указывать путь к карте сайта.
Переходим в Configuration → Crawl Config → Spider → Extraction
Page Details, Directives, URL Details — оставляем по умолчанию и опционально правим если нужно. Например, если вам нужны получить только мета-теги на страницах, то нет необходимости собирать всю остальную информацию.
Structured Data — полезная опция, помогает отыскать страницы без микроразметки или найти в ней какие-то ошибки. Ставим галочки, если нужно.
Для разделов Limits и Rendering оставляем значения по умолчанию.
Переходим в Configuration → Crawl Config → Spider → Advanced
Оставляем значение по умолчанию. Дополнительно можно включить Respect noindex (сканировать страницы с мета-тегом noindex), чтобы найти страницы, которые могли быть закрыты этим тегом по ошибке.
Переходим в Configuration → Crawl Config → Spider → Preferences
Эта опция позволяет настроить минимальную и максимальную длину мета-тегов, чтобы избежать лишних предупреждений об ошибках. По умолчанию максимальная длина Title — 60 символов, а Description — 150 символов. Рекомендуется установить значения, которые оптимально соответствуют вашим требованиям.
Настройка robots.txt
Переходим в Configuration → Crawl Config → robots.txt
По умолчанию краулер учитывает файл robots.txt. Если установить опцию Ignore, робот будет сканировать все страницы, даже те, которые были запрещены для индексации.
Если учитывать robots.txt, то две нижние галочки позволяют сканировать все страницы сайта, но в отчете будет указано, что они запрещены в robots.txt. Если снять эти галочки, краулер будет сканировать только страницы, которые разрешены для индексации в robots.txt.
Режимы сканирования
Режим Spider (по умолчанию)
Переходим в Mods → Spider
В обычном режиме обхода, как это делают поисковые системы, робот начинает с главной страницы, затем переходит по всем внутренним ссылкам, постепенно углубляясь по уровням вложенности сайта. Этот процесс продолжается до тех пор, пока не будут просканированы все доступные страницы.
Режим List
Переходим в Mods → List
- Здесь можно загрузить свой файл со списком URLs — From a File.
- Вручную внести свои URLs — Enter Manually.
- Paste — вставить скопированные URL.
- Download XML Sitemap — Отправить на сканирование ссылку на файл XML Sitemap.
Режим SERP
Переходим в Mods → SERP
Сканирует только Title и Description. Для работы данный режим практически не применяется.
Режим Compare
Переходим в Mods → Compare
Режим сравнения, может сравнивать разные варианты сканирования. Полезный модуль для проверки устранения ошибок.
Анализ дублированного контента
Переходим в Configuration → Crawl Config → Content → Duplicates
Only Check Indexable Pages for Duplicates при включенной галочке проверяет дубликаты только для страниц, открытых для индексирования. Если галочку снять, будут учитываться дубликаты всех страниц, независимо от того, разрешены ли они для индексации.
Enable Near Duplicates — процент дублирования (по умолчанию стоит 90%), рекомендуется выставить от 20 до 40%.
Результаты можно получить в правом окошке программы в разделе Content.
Нас интересуют строки Exact Duplicates (полные дубли) и Near Duplicates (неполные дубли)
Также рекомендуется использовать для поиска дублированного контента на сайте бесплатную программу — BatchUniqueChecker. Она поможет определить уникальность страницы в сравнении со всеми страницами внутри вашего сайта.
Страницы с малым количеством контента
Результаты можно получить в том же окошке в разделе Content → All
В получившемся отчете сортируем страницы по количеству слов.
Страницы, которые находятся в noindex мы можем отфильтровать.
Можно начинать анализ страниц с наименьшим количеством контента, что поможет быстрее выявить потенциальные дубликаты и оптимизировать слабые страницы.
Перейдя по таким страницам, мы можем определить, что на таких страницах в изменяемых частях, контента может и не быть совсем, а весь текст занимает сквозные элементы (header и footer).
В таком случае мы может задать определенную часть для сканирования. Копируем id или class этого блока.
В случае если такого блока нет или их несколько, проще определить сквозную часть, которую мы исключим из анализа.
Переходим в Configuration → Crawl Config → Content → Content Area
По умолчанию исключаются блоки nav и footer.
- Mode Include — включить для сканирования.
- Mode Exclude — исключить для сканирования.
Теперь можем в определенное окошко вставить наш блок, который нужно сканировать.
В результате на всем сайте будет учитываться только контент, который мы указали в настройках.
Страницы с менее чем 100 уникальными словами следует прорабатывать в приоритетном порядке. Такие страницы могут быть отнесены к малополезным (по оценке Яндекса) или «просканированы, но не проиндексированы» (по оценке Google), что негативно влияет на их видимость в поисковых системах.
Поиск пустых листингов на сайте
Этот способ похож на предыдущий метод поиска страниц с малым количеством контента. Например, для интернет-магазина с листингом товаров можно определить class или id для карточки товара, чтобы анализировать именно эти элементы. Это поможет быстро выявить страницы, где контент ограничен только карточками товаров, без достаточного уникального текста, что важно для оптимизации.
Убедитесь, что выбран правильный *class* для товаров. Например, если на странице отображается 5 карточек товаров, используйте поиск в коде сайта. Найдите этот *class*, и если найдено 5 совпадений, значит, вы все сделали правильно.
Обязательно, предварительно убираем все правила, которые мы задавали в разделе Content Area!
Переходим в Configuration → Crawl Config → Custom → Custom Search
Назовите ваш поиск любым удобным именем и вставьте найденный class. Это позволит быстро находить и анализировать нужные элементы на страницах.
Результаты можно посмотреть в правом окошке программы в разделе Custom Search.
В получившемся отчете вы сможете увидеть, сколько товаров присутствует на каждой странице. Это позволит выявить страницы, где товаров нет или их очень мало, и приоритезировать их для дальнейшей проработки и оптимизации.
Проверка наличия счетчиков на страницах
Копируем номер счетчика метрики Яндекс. Найти его можно в Метрика → Настройки → Счетчик.
Переходим в Configuration → Crawl Config → Custom → Custom Search
Вставляем номер счетчика и сканируем сайт.
Также можно проверить Google Аналитику, добавив второе правило.
Результаты можно посмотреть в правом окошке программы в разделе Custom Search.
Анализ Title, Description и заголовков (H1, H2)
После того как сайт просканировали смотрим на результаты в правом окошке в разделе Page Title. Для нас самые важные пункты:
- Missing — пропущенный тег Title на странице.
- Duplicate — повторяющийся Title на страницах.
- Same as H1 — Title совпадает с H1
- Multiple — несколько Title на одной странице
- Below (n-ваше значение) Character — количество символов в теге Title.
Аналогично для Description
Заголовок H1
Заголовок H2
Анализ ответов сервера
Смотрим на результаты в разделе Response Codes. Для нас самые важные пункты:
- Redirection (3xx)
- Redirection (JavaScript)
- Client Error (4xx)
- Server Error (5xx)
Все ссылки на данных страницах необходимо исправить. Лучшим результатом является, чтобы все страницы на сайте выдавали Success (2xx) на 100%.
Интеграция с внешними API
Чтобы получить больше данных по сайту, можно настроить интеграцию с сервисами аналитики, такими как Google Analytics или Google Search Console. Это позволит получать дополнительные метрики, такие как посещаемость страниц, показатели отказов и позиции в поисковой выдаче, что поможет в более глубоком анализе и оптимизации сайта.
Обязательно ставим галочку для учитывания новых страниц.
Проверка размеров и доступности изображений
Перейдите на вкладку Images. Для нас самые важные пункты:
- Over 100 KB
- Missing ALT Text
- Missing ALT Attribute
Проверка корректности микроразметки
Переходим в Configuration → Crawl Config → Spider → Extraction
Ставим галочки на всю микроразметку.
Результаты смотрим в разделе Structured Data.
Screaming Frog SEO Spider — это мощный инструмент, позволяющий SEO-специалистам глубоко анализировать сайты и находить способы их оптимизации. В этой статье мы разобрали ключевые функции программы, но её возможности значительно шире. Программа постоянно обновляется, добавляя новые функции, и мы будем делиться с вами свежими рекомендациями и полезными советами по её использованию.
2 часть по руководству Screaming Frog SEO Spider совсем скоро!