208 подписчиков

Обзор основных инструментов для парсинга сайтов.

5 августа 20215 авг 2021

5 мин

Оглавление

Какую информацию можно получить, используя парсер?
Законно ли парсить чужие сайты?
Google таблицы (Google Spreadsheet)

На прошлой недели мы познакомили вас с таким термином, как парсинг. Сегодня расскажем про 4 основных инструмента, которые можно принимать для парсинга сайтов.

Перед прочтением рекомендуем ознакомиться с нашим прошлым материалом: "Парсинг сайта: что это такое?".

Какую информацию можно получить, используя парсер?

У разных парсеров могут быть свои ограничения на парсинг, но по своей сути вы можете спарсить и получить абсолютно любую информацию, которая есть в коде страниц сайта.

Законно ли парсить чужие сайты?

Парсинг данных с сайтов-конкурентов или с агрегаторов не противоречат закону, если:

получаемая информация находится в открытом доступе и не несет коммерческую тайну;
не затрагиваются авторские права полученной информации;
парсинг проводится законным методом;
парсинг не влияет на нормальную работу сайта (не приводит к сбоям).

Если вы сомневаетесь по одному из перечисленных пунктов, перед проведением анализа сайта лучше проконсультироваться с юристом.
Популярные программы для парсинга сайта

Мы выделяем 4 основных инструменты для парсинга сайтов:

Google таблицы (Google Spreadsheet)
NetPeak Spider
ComparseR
Screaming Frog SEO Spider

Google таблицы (Google Spreadsheet)

Удобный способ для парсинга, если нет необходимости парсить большое количество данных, так как есть лимиты на количество xml запросов в день.

С помощью таблиц Google Spreadsheet можно парсить метаданные, заголовки, наименования товаров, цены, почту и многое другое.

Рассмотрим основные функции

Функция importHTML

Настраивает импорт таблиц и списков на страницах сайта. Прописывается следующим образом:

=IMPORTHTML(“ссылка на страницу”; запрос “table” или “list”; порядковый номер таблицы/списка)

Пример использования

Необходимо выгрузить данные из таблицы со страницы сайта.

Для этого в формулу помещаем URL страницы, добавляем тег «table» и порядковый номер — 1.

Вот что получается:

=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;1)

Вставляем формулу в таблицу и смотрим результат:

Для выгрузки второй таблицы в формуле заменяем 1 на 2.

=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;2)

Вставляем формулу в таблицу и смотрим результат:

Функция importXML

Импортирует данные из документов в форматах HTML, XML, CSV, CSV, TSV, RSS, ATOM XML.

Функция имеет более широкий спектр опций, чем предыдущая. С её помощью со страниц и документов можно собирать информацию практически любого вида.

Работа с этой функцией предусматривает использование языка запросов XPath.

Формула:

=IMPORTXML(“ссылка”; “//XPath запрос”)

Пример использования

Вытягиваем title, description и заголовок h1.

В первом случае в формуле просто прописываем //title:

=importxml(A3;”//title”)

В формулу можно также добавлять названия ячеек, в которых содержатся нужные данные.

Для заголовка h1 похожая формула

=importxml(A3;”//h1”)

С парсингом description немного другая история, а именно прописать его XPath запросом. Он будет выглядеть так:

=importxml(A3;”//meta[@name=’description’]/@content”)

В случае с другими любыми данными XPath можно скопировать прямо из кода страницы. Делается это просто:

Вот как это будет выглядеть после всех манипуляций

=importxml(A3;”//html/body/div/div/div[1]/div[2]/div/div[4]/div[2]”)

Функция REGEXEXTRACT

С её помощью можно извлекать любую часть текста, которая соответствует регулярному выражению.

Конечно для использования данной функции необходимы знания построения регулярных выражений,

Пример использования

Нужно отделить домены от страниц. Это можно сделать с помощью выражения:

=REGEXEXTRACT(A2;”^(?:https?:\/\/)?(?:[^@\n]+@)?(?:www\.)?([^:\/\n]+)”)

Подробнее о функциях таблиц можно почитать в справке Google.

NetPeak Spider

Десктопный инструмент для регулярного SEO-аудита, быстрого поиска ошибок, системного анализа и парсинга сайтов.

Бесплатный период 14 дней, есть варианты платных лицензий на месяц и более.

Данная программа подойдет как новичкам, так и опытным SEO-специалистам. У неё интуитивно понятный интерфейс, она самостоятельно находит и кластеризует ошибки, найденные на сайте, помечает их разными цветами в зависимости от степени критичности.

Возможности Netpeak Spider:

Проверяет более 80 ключевых ошибок внутренней оптимизации.
Анализирует свыше 70 базовых SEO-параметров
Высокая скорость сканирования
Возможность анализа больших сайтов
Настройка и парсинг кастомных HTML-данных

Ссылка на официальный сайт — https://netpeaksoftware.com/spider

Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/

ComparseR

ComparseR – специализированная программа, предназначенная для глубокого изучения индексации сайта.

У демо-версии ComparseR есть 2 ограничения:

Парсит только первые 150 страниц сайта или первые 150 результатов выдачи.
Не имеет механизма самообновления и демо-дистрибутив обновляется только в критических случаях.

Данный парсер примечателен тем, что он заточен на сравнение того, что есть на вашем сайте и тем, что индексируется в поисковых системах.

То есть вы легко найдете страницы, которые не индексируются поисковыми системами, или наоборот, страницы-сироты (страницы, на которые нет ссылок на сайте), о которых вы даже не подозревали.

Стоит отметить, что данный парсер полностью на русском и не так требователен к мощностям компьютера, как другие аналоги.

Ссылка на официальный сайт — https://parser.alaev.info/

Обзор возможностей https://youtu.be/xAz4InkEftE.

Screaming Frog SEO Spider

Особенности программы:

Для работы программы требуется установка JAVA;
Потребляет большое количество оперативной памяти компьютера.
Имеет возможность подключения различных APIGoogle Analytics
Google Search Console
PageSpeed Insights
Majestic
Ahrefs
Moz
Можно настроить и спарсить кастомные HTML-данные
Есть возможность настройки и запуска программы через расписание с заданными настройками парсинга с сохранением всех необходимых отчетов.
Можно управлять SEO Spider полностью через командную строку. Это включает в себя запуск, полную настройку, сохранение и экспорт практически любых данных и отчетов.

В бесплатной версии доступна обработка до 500 запросов.

На первый взгляд интерфейс данной программы для парсинга сайтов может показаться сложным и непонятным, особенно из-за отсутствия русского языка.

Не смотря на это, сама программа является великолепным инструментом с множеством возможностей.

Всю необходимую информацию можно узнать из подробного мануала по адресу https://www.screamingfrog.co.uk/seo-spider/user-guide/.

Ссылка на официальный сайт — https://www.screamingfrog.co.uk/seo-spider/

Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/

Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.