Парсинг — дело очень неблагодарное. Почти каждый создатель сайтов решает изобрести велосипед, что делает некоторые ресурсы вообще не читаемыми машинами.
Дальше всех в этом деле зашли индусы. Наши программисты ковырялись неделю, чтобы настроить стабильный сбор информации с одного хитрого сайта, посвященного госзакупкам вооружений. И это люди, которые не одну собаку съели на машинном сборе информации.
Но человечество нашло решение этой проблемы. Имя ему RSS. Сегодня RSS — это один из самых удобных способов поженить парсеры и сами сайты для стабильного сбора информации без танцев с бубном.
Если коротко, RSS — это формат стандартизированной разметки, который сам показывает роботу, где и что лежит. Мол, это — заголовок, это — текст статьи, а это — мусор, его можно не собирать.
По моим подсчетам, более двух третей сайтов международных СМИ используют или RSS, или Atom для облегчения работы по сбору информации.
Встает вопрос — чем читать RSS. Таких решений пруд-пруди. Но лично у меня два фаворита — это Feedly [1] и RssOwl [2].
Первая — одна из лучших читалок для RSS, красивая, мощная, с кучей преднастроенных источников. Вам даже ничего искать не надо, просто нашли нужные источники в поиске и подписались на них. В общем, кто за эстетику и удобство — это в Feedly. Правда имейте в виду, что он немножко платный.
RssOwl — это олдскул. Как говорится, нет школы лучше, чем старая школа. Каждая RSS подключается вручную. Но! В RssOwl можно настроить семантику: если текст из RSS соответствует некоторым заданным ключевым словам — новость попадет в отдельную папку. Этакий Avalanche на минималках. К тому же бесплатно! Чего еще желать!
RssOwl — это моя первая любовь. Еще в Питере, работая в госструктурах, я с ее помощью настроил целую систему мониторинга, которой пользовались еще несколько лет после моего ухода.
Про RSS и парсинг сайтов мы еще с вами поговорим. Тема-то неисчерпаемая. И там есть очень много интересного. А пока — пользуйтесь инструментами на здоровье.