Найти тему

Обзор основных инструментов для парсинга сайтов.

Оглавление

На прошлой недели мы познакомили вас с таким термином, как парсинг. Сегодня расскажем про 4 основных инструмента, которые можно принимать для парсинга сайтов.

Перед прочтением рекомендуем ознакомиться с нашим прошлым материалом: "Парсинг сайта: что это такое?".

Какую информацию можно получить, используя парсер?

У разных парсеров могут быть свои ограничения на парсинг, но по своей сути вы можете спарсить и получить абсолютно любую информацию, которая есть в коде страниц сайта.

Законно ли парсить чужие сайты?

Парсинг данных с сайтов-конкурентов или с агрегаторов не противоречат закону, если:

  • получаемая информация находится в открытом доступе и не несет коммерческую тайну;
  • не затрагиваются авторские права полученной информации;
  • парсинг проводится законным методом;
  • парсинг не влияет на нормальную работу сайта (не приводит к сбоям).

Если вы сомневаетесь по одному из перечисленных пунктов, перед проведением анализа сайта лучше проконсультироваться с юристом.
Популярные программы для парсинга сайта

Мы выделяем 4 основных инструменты для парсинга сайтов:

  • Google таблицы (Google Spreadsheet)
  • NetPeak Spider
  • ComparseR
  • Screaming Frog SEO Spider

Google таблицы (Google Spreadsheet)

Удобный способ для парсинга, если нет необходимости парсить большое количество данных, так как есть лимиты на количество xml запросов в день.

С помощью таблиц Google Spreadsheet можно парсить метаданные, заголовки, наименования товаров, цены, почту и многое другое.

Рассмотрим основные функции

Функция importHTML

Настраивает импорт таблиц и списков на страницах сайта. Прописывается следующим образом:

=IMPORTHTML(“ссылка на страницу”; запрос “table” или “list”; порядковый номер таблицы/списка)

Пример использования

Необходимо выгрузить данные из таблицы со страницы сайта.

-2
-3

Для этого в формулу помещаем URL страницы, добавляем тег «table» и порядковый номер — 1.

Вот что получается:

=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;1)

Вставляем формулу в таблицу и смотрим результат:

-4

Для выгрузки второй таблицы в формуле заменяем 1 на 2.

=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;2)

Вставляем формулу в таблицу и смотрим результат:

-5

Функция importXML

Импортирует данные из документов в форматах HTML, XML, CSV, CSV, TSV, RSS, ATOM XML.

Функция имеет более широкий спектр опций, чем предыдущая. С её помощью со страниц и документов можно собирать информацию практически любого вида.

Работа с этой функцией предусматривает использование языка запросов XPath.

Формула:

=IMPORTXML(“ссылка”; “//XPath запрос”)

Пример использования

Вытягиваем title, description и заголовок h1.

В первом случае в формуле просто прописываем //title:

=importxml(A3;”//title”)

-6

В формулу можно также добавлять названия ячеек, в которых содержатся нужные данные.

Для заголовка h1 похожая формула

=importxml(A3;”//h1”)

-7

С парсингом description немного другая история, а именно прописать его XPath запросом. Он будет выглядеть так:

=importxml(A3;”//meta[@name=’description’]/@content”)

-8

В случае с другими любыми данными XPath можно скопировать прямо из кода страницы. Делается это просто:

-9

Вот как это будет выглядеть после всех манипуляций

=importxml(A3;”//html/body/div/div/div[1]/div[2]/div/div[4]/div[2]”)

-10

Функция REGEXEXTRACT

С её помощью можно извлекать любую часть текста, которая соответствует регулярному выражению.

Конечно для использования данной функции необходимы знания построения регулярных выражений,

Пример использования

Нужно отделить домены от страниц. Это можно сделать с помощью выражения:

=REGEXEXTRACT(A2;”^(?:https?:\/\/)?(?:[^@\n]+@)?(?:www\.)?([^:\/\n]+)”)

-11

Подробнее о функциях таблиц можно почитать в справке Google.

NetPeak Spider

-12

Десктопный инструмент для регулярного SEO-аудита, быстрого поиска ошибок, системного анализа и парсинга сайтов.

Бесплатный период 14 дней, есть варианты платных лицензий на месяц и более.

Данная программа подойдет как новичкам, так и опытным SEO-специалистам. У неё интуитивно понятный интерфейс, она самостоятельно находит и кластеризует ошибки, найденные на сайте, помечает их разными цветами в зависимости от степени критичности.

Возможности Netpeak Spider:

  • Проверяет более 80 ключевых ошибок внутренней оптимизации.
  • Анализирует свыше 70 базовых SEO-параметров
  • Высокая скорость сканирования
  • Возможность анализа больших сайтов
  • Настройка и парсинг кастомных HTML-данных
-13

Ссылка на официальный сайт — https://netpeaksoftware.com/spider

Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/

ComparseR

-14

ComparseR – специализированная программа, предназначенная для глубокого изучения индексации сайта.

У демо-версии ComparseR есть 2 ограничения:

  • Парсит только первые 150 страниц сайта или первые 150 результатов выдачи.
  • Не имеет механизма самообновления и демо-дистрибутив обновляется только в критических случаях.

Данный парсер примечателен тем, что он заточен на сравнение того, что есть на вашем сайте и тем, что индексируется в поисковых системах.

То есть вы легко найдете страницы, которые не индексируются поисковыми системами, или наоборот, страницы-сироты (страницы, на которые нет ссылок на сайте), о которых вы даже не подозревали.

Стоит отметить, что данный парсер полностью на русском и не так требователен к мощностям компьютера, как другие аналоги.

-15

Ссылка на официальный сайт — https://parser.alaev.info/

Обзор возможностей https://youtu.be/xAz4InkEftE.

Screaming Frog SEO Spider

-16

Особенности программы:

  1. Для работы программы требуется установка JAVA;
  2. Потребляет большое количество оперативной памяти компьютера.
  3. Имеет возможность подключения различных APIGoogle Analytics
    Google Search Console
    PageSpeed Insights
    Majestic
    Ahrefs
    Moz
  4. Можно настроить и спарсить кастомные HTML-данные
  5. Есть возможность настройки и запуска программы через расписание с заданными настройками парсинга с сохранением всех необходимых отчетов.
  6. Можно управлять SEO Spider полностью через командную строку. Это включает в себя запуск, полную настройку, сохранение и экспорт практически любых данных и отчетов.

В бесплатной версии доступна обработка до 500 запросов.

На первый взгляд интерфейс данной программы для парсинга сайтов может показаться сложным и непонятным, особенно из-за отсутствия русского языка.

Не смотря на это, сама программа является великолепным инструментом с множеством возможностей.

Всю необходимую информацию можно узнать из подробного мануала по адресу https://www.screamingfrog.co.uk/seo-spider/user-guide/.

-17

Ссылка на официальный сайт — https://www.screamingfrog.co.uk/seo-spider/

Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/

Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.