Парсинг — дело очень неблагодарное. Почти каждый создатель сайтов решает изобрести велосипед, что делает некоторые ресурсы вообще не читаемыми машинами. Дальше всех в этом деле зашли индусы. Наши программисты ковырялись неделю, чтобы настроить стабильный сбор информации с одного хитрого сайта, посвященного госзакупкам вооружений. И это люди, которые не одну собаку съели на машинном сборе информации. Но человечество нашло решение этой проблемы. Имя ему RSS. Сегодня RSS — это один из самых удобных способов поженить парсеры и сами сайты для стабильного сбора информации без танцев с бубном. Если коротко, RSS — это формат стандартизированной разметки, который сам показывает роботу, где и что лежит. Мол, это — заголовок, это — текст статьи, а это — мусор, его можно не собирать. По моим подсчетам, более двух третей сайтов международных СМИ используют или RSS, или Atom для облегчения работы по сбору информации. Встает вопрос — чем читать RSS. Таких решений пруд-пруди. Но лично у меня два фа