На прошлой недели мы познакомили вас с таким термином, как парсинг. Сегодня расскажем про 4 основных инструмента, которые можно принимать для парсинга сайтов.
Перед прочтением рекомендуем ознакомиться с нашим прошлым материалом: "Парсинг сайта: что это такое?".
Какую информацию можно получить, используя парсер?
У разных парсеров могут быть свои ограничения на парсинг, но по своей сути вы можете спарсить и получить абсолютно любую информацию, которая есть в коде страниц сайта.
Законно ли парсить чужие сайты?
Парсинг данных с сайтов-конкурентов или с агрегаторов не противоречат закону, если:
- получаемая информация находится в открытом доступе и не несет коммерческую тайну;
- не затрагиваются авторские права полученной информации;
- парсинг проводится законным методом;
- парсинг не влияет на нормальную работу сайта (не приводит к сбоям).
Если вы сомневаетесь по одному из перечисленных пунктов, перед проведением анализа сайта лучше проконсультироваться с юристом.
Популярные программы для парсинга сайта
Мы выделяем 4 основных инструменты для парсинга сайтов:
- Google таблицы (Google Spreadsheet)
- NetPeak Spider
- ComparseR
- Screaming Frog SEO Spider
Google таблицы (Google Spreadsheet)
Удобный способ для парсинга, если нет необходимости парсить большое количество данных, так как есть лимиты на количество xml запросов в день.
С помощью таблиц Google Spreadsheet можно парсить метаданные, заголовки, наименования товаров, цены, почту и многое другое.
Рассмотрим основные функции
Функция importHTML
Настраивает импорт таблиц и списков на страницах сайта. Прописывается следующим образом:
=IMPORTHTML(“ссылка на страницу”; запрос “table” или “list”; порядковый номер таблицы/списка)
Пример использования
Необходимо выгрузить данные из таблицы со страницы сайта.
Для этого в формулу помещаем URL страницы, добавляем тег «table» и порядковый номер — 1.
Вот что получается:
=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;1)
Вставляем формулу в таблицу и смотрим результат:
Для выгрузки второй таблицы в формуле заменяем 1 на 2.
=IMPORTHTML(“https://hstream.ru/industrialnye-teplonositeli/etilenglikol/”;”table”;2)
Вставляем формулу в таблицу и смотрим результат:
Функция importXML
Импортирует данные из документов в форматах HTML, XML, CSV, CSV, TSV, RSS, ATOM XML.
Функция имеет более широкий спектр опций, чем предыдущая. С её помощью со страниц и документов можно собирать информацию практически любого вида.
Работа с этой функцией предусматривает использование языка запросов XPath.
Формула:
=IMPORTXML(“ссылка”; “//XPath запрос”)
Пример использования
Вытягиваем title, description и заголовок h1.
В первом случае в формуле просто прописываем //title:
=importxml(A3;”//title”)
В формулу можно также добавлять названия ячеек, в которых содержатся нужные данные.
Для заголовка h1 похожая формула
=importxml(A3;”//h1”)
С парсингом description немного другая история, а именно прописать его XPath запросом. Он будет выглядеть так:
=importxml(A3;”//meta[@name=’description’]/@content”)
В случае с другими любыми данными XPath можно скопировать прямо из кода страницы. Делается это просто:
Вот как это будет выглядеть после всех манипуляций
=importxml(A3;”//html/body/div/div/div[1]/div[2]/div/div[4]/div[2]”)
Функция REGEXEXTRACT
С её помощью можно извлекать любую часть текста, которая соответствует регулярному выражению.
Конечно для использования данной функции необходимы знания построения регулярных выражений,
Пример использования
Нужно отделить домены от страниц. Это можно сделать с помощью выражения:
=REGEXEXTRACT(A2;”^(?:https?:\/\/)?(?:[^@\n]+@)?(?:www\.)?([^:\/\n]+)”)
Подробнее о функциях таблиц можно почитать в справке Google.
NetPeak Spider
Десктопный инструмент для регулярного SEO-аудита, быстрого поиска ошибок, системного анализа и парсинга сайтов.
Бесплатный период 14 дней, есть варианты платных лицензий на месяц и более.
Данная программа подойдет как новичкам, так и опытным SEO-специалистам. У неё интуитивно понятный интерфейс, она самостоятельно находит и кластеризует ошибки, найденные на сайте, помечает их разными цветами в зависимости от степени критичности.
Возможности Netpeak Spider:
- Проверяет более 80 ключевых ошибок внутренней оптимизации.
- Анализирует свыше 70 базовых SEO-параметров
- Высокая скорость сканирования
- Возможность анализа больших сайтов
- Настройка и парсинг кастомных HTML-данных
Ссылка на официальный сайт — https://netpeaksoftware.com/spider
Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/
ComparseR
ComparseR – специализированная программа, предназначенная для глубокого изучения индексации сайта.
У демо-версии ComparseR есть 2 ограничения:
- Парсит только первые 150 страниц сайта или первые 150 результатов выдачи.
- Не имеет механизма самообновления и демо-дистрибутив обновляется только в критических случаях.
Данный парсер примечателен тем, что он заточен на сравнение того, что есть на вашем сайте и тем, что индексируется в поисковых системах.
То есть вы легко найдете страницы, которые не индексируются поисковыми системами, или наоборот, страницы-сироты (страницы, на которые нет ссылок на сайте), о которых вы даже не подозревали.
Стоит отметить, что данный парсер полностью на русском и не так требователен к мощностям компьютера, как другие аналоги.
Ссылка на официальный сайт — https://parser.alaev.info/
Обзор возможностей https://youtu.be/xAz4InkEftE.
Screaming Frog SEO Spider
Особенности программы:
- Для работы программы требуется установка JAVA;
- Потребляет большое количество оперативной памяти компьютера.
- Имеет возможность подключения различных APIGoogle Analytics
Google Search Console
PageSpeed Insights
Majestic
Ahrefs
Moz - Можно настроить и спарсить кастомные HTML-данные
- Есть возможность настройки и запуска программы через расписание с заданными настройками парсинга с сохранением всех необходимых отчетов.
- Можно управлять SEO Spider полностью через командную строку. Это включает в себя запуск, полную настройку, сохранение и экспорт практически любых данных и отчетов.
В бесплатной версии доступна обработка до 500 запросов.
На первый взгляд интерфейс данной программы для парсинга сайтов может показаться сложным и непонятным, особенно из-за отсутствия русского языка.
Не смотря на это, сама программа является великолепным инструментом с множеством возможностей.
Всю необходимую информацию можно узнать из подробного мануала по адресу https://www.screamingfrog.co.uk/seo-spider/user-guide/.
Ссылка на официальный сайт — https://www.screamingfrog.co.uk/seo-spider/
Ссылка на youtube канал с полезными видео — https://www.youtube.com/user/screamingfroguk/
Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.