Найти тему
SСhaos

Сбор информации (парсинг) с сайта при помощи Scrapy (Python)

После создания сайта наполнения его контентом, прописывание meta тэгов, следует проверить сайт на предмет дублей страниц, правильности meta тэгов, верно ли прописан файл robots.txt.

Проходить сайт вручную, если это каталог интернет-магазина то проверять все вручную не очень хочет, и здесь на помощь придет библиотека python для написания роботов по сбору данных scrapy.

Для написания простейшего робота потребуется:

1) Установить Scrapy (предполагаем что python у Вас уже установлен)

pip install scrapy

2) Сам простейший робот выглядит так (файл bot.py)

3) Запустить робота

scrapy runspider bot.py

Более полную информацию по более тонкой настройке робота можно посмотреть в документации к scrapy.

З.Ы. А еще мы пишем много полезной информации в блоге Стократ. Добро пожаловать.