Найти в Дзене
Stifworld - О том О сем

Парсинг сайтов в excel этап 2

Оглавление

Этап 1 подготовка - нам нужно указать парсеру все этапы по пунктам (самый сложный и ответственный момент)

Этап 2 вывод информации - в этой статье нам нужно вывести нужные нам поля на страницу Excel это финальный этап

Так всем привет ребят продолжаем. Тут нам мы будем выводить нужные нам данные на лист. Поехали

Вывод на лист

Жмем на вкладку вывод на лист.

-2

тут нам нужно добавить столбцы названия к ним и указать парсеру что брать какие данные по какому атрибуту

Получаем название товара

Жму добавить столбец и присваиваю ему имя "Название товара" я хочу вывести в ячейку а название товара

-3

Жмем на знакомую нам кнопку Редактировать список действий и выбираем действие поиск тегов из категории: работа с HTML. По правилам на странице должен быть один тег <H1> и это будет название товара
-4
  • Тип элемента (например, div или table) выбираем из списка тег <H1>
  1. Тестирование списка действий в этом окне справа жмем на стрелочку
  2. Выбираем пункт "Взять из буфера #1"
  3. Жмем на синюю надпись "исходное значение для списка действий"

-5

Жмем сохранить список действий

Получаем Артикул

Жму добавить столбец и присваиваю ему имя "Артикул" я хочу вывести в ячейку а Артикулы товаров

-6
Жмем на знакомую нам кнопку Редактировать список действий и выбираем действие поиск тегов из категории: работа с HTML.

Перейдем по ссылке и посмотрим где и как нам взять артикул

Нам нужно обратиться к id "sku-field"
Нам нужно обратиться к id "sku-field"

Давайте так и сделаем в

  1. Тип элемента (например, div или table) выбираем из списка тег <span>
  2. Название проверяемого атрибута выбираем из списка "id"
  3. Значение выбираемого атрибута выбираем в нашем случае sku-field

Жмем тестировать и мы должны увидеть артикул товара

-8

Жмем сохранить список действий!

Получаем Описание товара

делается все аналогично примерам выше

Жму добавить столбец и присваиваю ему имя "Описание товара" я хочу вывести в ячейку а Описание товаров

Жмем на знакомую нам кнопку Редактировать список действий и выбираем действие поиск тегов из категории: работа с HTML.

Перейдем в браузер на страницу где ранее искали артикул и смотрим как найти описание товара

-9

И видим что для начало нам нужен тег <div class="description"> потом в нем нам нужен тег <p>

Сделаем это!

-10

Теперь ищем тег <P>

-11

Мы видим что в контейнере <div class="description"> тег <p> не один и поэтому мы получили эти текста но нам нужен первый тег <p>

  1. Тип элемента (например, div или table) выбираем из списка тег <p>
  2. Тип результата / извлекаемый атрибут выбираем из списка "ConvertToText 1"
-12
Указав атрибут "ConvertToText 1" мы сказали сконвертируй первый <p> в текст

Жмем сохранить список действий!

Аналогично достается ЦЕНА. Думаю ты справишься мой друг, а мы достанем характеристики. Поехали

Парсим Характеристики товара

парсеру есть чем тебя удивить :-)

Жму добавить столбец и не присваиваем ему имя, поля имя оставим Пустым я хочу вывести характеристики каждую в своей ячейке автоматом

Перейдем в браузер на страницу где ранее искали артикул и смотрим как найти характеристики.

И видим что наши характеристики обернуты в тег <tbody>
И видим что наши характеристики обернуты в тег <tbody>

Жмем на знакомую нам кнопку Редактировать список действий и выбираем действие поиск тегов из категории: работа с HTML. И найдем этот тег <tbody>

-14
Видим что в списке нет тега <tbody> и вся прелесть в том что нам прото нужно написать этот тег и парсер поймет где искать
  1. Тип элемента (например, div или table) прописываем тег <tbody>
  2. Тип результата / извлекаемый атрибут выбираем из списка "ConvertToText" (мы перевели всю структуру в текст и вот что получили)
-15

Все супер у нас все получается. Теперь что бы парсер автоматом создал ячейку Производитель и присвоил ей значение Rehau потом создал ячейку Серия и присвоил ей значение PX и тд по списку, после названия характеристики нужно в данном случае пробел заменить на вертикальную черту.

для этого правой кнопкой мыши выделите этот пробел и скопируйте его комбинацией кнопок ctrl + c

-16

Теперь выбираем действие Заменить часть текста из категории: текстовые.

  1. в поле что заменяем комбинацией кнопок ctrl + v вставляем скопированный ранее пробел
  2. в поле на что заменяем вставляем вертикальную полосу |
-17

Вуаля теперь мы видим что после названия характеристики у нас вертикальная полоса, Но есть еще пробел меж символьный

Выбираем действие Заменить часть текста из категории: текстовые.

  1. в поле что заменяем "нажимаем пробел" один раз.
  2. в поле на что заменяем "оставляем пустым"
-18

тут мы получили тест длиной 569 символов этот текст нужно разбить на массив что бы для парсера каждая строка была отдельным элементом. В данный момент для парсера это просто текст.

Выбираем действие разбить текстовую строку на массив из категории: функции массива.

-19

В пункте Разделитель элемента массива должно быть "{NL}" и мы получили каждую характеристику в отдельной строке итого 18 характеристик.

Жмем сохранить список действий!

Далее идем во вкладку дополнительно

-20

и жмем галочку в пункте Поиск столбца для вывода

Теперь если начнем парсинг наши данные не будут вмещаться в ячейки нужно для кажной ячейки указать ширину

Выбираем ячейку и идем во вкладку формат

-21
ширину столбца "Название товара" я выставил 46
ширину столбца "Артикул" я выставил 15
ширину столбца "Описание" я выставил 70 и поставил галочку "перенос текста если текст не умещается"
ширину столбцов "характеристик" я выставил 22

Во вкладке дополнительно настраиваем как у меня

-22

Жмем сохранить и закрыть!

Мы все сделали теперь можно запускать парсер

-23

и наблюдаем как парсер собирает данные Название, Описание, Артикул. Ищет название характеристики и автоматом подставляет значение

-24

Готовый файл выглядит так

-25

Парсер вернее надстройку покупал на сайте

Парсер сам обновляется

При покупки одной лицензии вторая а подарок

Наука
7 млн интересуются