Найти тему

Парсим каталог организаций

Оглавление
orgpage.ru -сайт со сложной навигацией
orgpage.ru -сайт со сложной навигацией

Получение ссылок

На данном сайте ссылки организованы запутанным образом и чтобы их получить необходимо их получить из sitemap.xml , как это сделать можно посмотреть по ссылке

Получение данных

1. Наименование организации

<h1 itemprop="name">
ВСЕ СВОИ!
</h1>

наш xpath //h1[@itemprop='name']

2. Адрес

<span itemprop="streetAddress">Братиславская улица, 8</span>

наш xpath //div[@class='main-address company-information__address-title']

3. Почтовый адрес

<div class="company-information__address-text">
<span>Москва</span>, <span itemprop="addressCountry">Россия</span>, <span itemprop="postalCode">109341</span>
</div>

наш xpath //div[@class='company-information__address-text']

4. Телефон

<span class="company-information__phone" itemprop="telephone">+7 (495) 347-99-04</span>

наш xpath //*[@class='company-information__phone']

5. Сайт компании

<a href="http://www.vse-svoi.ru" class="nofol-link" rel="nofollow" target="_blank">www.vse-svoi.ru</a>

наш xpath //a[@class='nofol-link']

6. Электронная почта компании

<a itemprop="email" href="mailto:apteka.roszdrav@mail.ru">

наш xpath //a[@itemprop='email']

7. Сфера деятельности

<a class="rubric-name-container" href="/moskva/aptechnye_organizacii/">
Аптечные организации
</a>

наш xpath //*[@class="rubric-name-container"]

Сфер деятельности может быть несколько их можно перечислить через запятую и убрать через регулярные выражения цифры -Аптеки в Москве 7931

Заключение

Сайт парсится хорошо , но достаточно слабый хостинг . Не ставьте много потоков , иначе будете получат отказы вместо данных. Xpath поддерживают все популярные программы для парсинга, поэтому настроить для своей программы будет легко.