Получение ссылок
На данном сайте ссылки организованы запутанным образом и чтобы их получить необходимо их получить из sitemap.xml , как это сделать можно посмотреть по ссылке
Получение данных
1. Наименование организации
<h1 itemprop="name">
ВСЕ СВОИ!
</h1>
наш xpath //h1[@itemprop='name']
2. Адрес
<span itemprop="streetAddress">Братиславская улица, 8</span>
наш xpath //div[@class='main-address company-information__address-title']
3. Почтовый адрес
<div class="company-information__address-text">
<span>Москва</span>, <span itemprop="addressCountry">Россия</span>, <span itemprop="postalCode">109341</span>
</div>
наш xpath //div[@class='company-information__address-text']
4. Телефон
<span class="company-information__phone" itemprop="telephone">+7 (495) 347-99-04</span>
наш xpath //*[@class='company-information__phone']
5. Сайт компании
<a href="http://www.vse-svoi.ru" class="nofol-link" rel="nofollow" target="_blank">www.vse-svoi.ru</a>
наш xpath //a[@class='nofol-link']
6. Электронная почта компании
<a itemprop="email" href="mailto:apteka.roszdrav@mail.ru">
наш xpath //a[@itemprop='email']
7. Сфера деятельности
<a class="rubric-name-container" href="/moskva/aptechnye_organizacii/">
Аптечные организации
</a>
наш xpath //*[@class="rubric-name-container"]
Сфер деятельности может быть несколько их можно перечислить через запятую и убрать через регулярные выражения цифры -Аптеки в Москве 7931
Заключение
Сайт парсится хорошо , но достаточно слабый хостинг . Не ставьте много потоков , иначе будете получат отказы вместо данных. Xpath поддерживают все популярные программы для парсинга, поэтому настроить для своей программы будет легко.