557 подписчиков

Чем читать RSS-ленты

22 июля 202222 июл 2022

1 мин

Парсинг — дело очень неблагодарное. Почти каждый создатель сайтов решает изобрести велосипед, что делает некоторые ресурсы вообще не читаемыми машинами. Дальше всех в этом деле зашли индусы. Наши программисты ковырялись неделю, чтобы настроить стабильный сбор информации с одного хитрого сайта, посвященного госзакупкам вооружений. И это люди, которые не одну собаку съели на машинном сборе информации. Но человечество нашло решение этой проблемы. Имя ему RSS. Сегодня RSS — это один из самых удобных способов поженить парсеры и сами сайты для стабильного сбора информации без танцев с бубном. Если коротко, RSS — это формат стандартизированной разметки, который сам показывает роботу, где и что лежит. Мол, это — заголовок, это — текст статьи, а это — мусор, его можно не собирать. По моим подсчетам, более двух третей сайтов международных СМИ используют или RSS, или Atom для облегчения работы по сбору информации. Встает вопрос — чем читать RSS. Таких решений пруд-пруди. Но лично у меня два фа

Парсинг — дело очень неблагодарное. Почти каждый создатель сайтов решает изобрести велосипед, что делает некоторые ресурсы вообще не читаемыми машинами.

Дальше всех в этом деле зашли индусы. Наши программисты ковырялись неделю, чтобы настроить стабильный сбор информации с одного хитрого сайта, посвященного госзакупкам вооружений. И это люди, которые не одну собаку съели на машинном сборе информации.

Но человечество нашло решение этой проблемы. Имя ему RSS. Сегодня RSS — это один из самых удобных способов поженить парсеры и сами сайты для стабильного сбора информации без танцев с бубном.

Если коротко, RSS — это формат стандартизированной разметки, который сам показывает роботу, где и что лежит. Мол, это — заголовок, это — текст статьи, а это — мусор, его можно не собирать.

По моим подсчетам, более двух третей сайтов международных СМИ используют или RSS, или Atom для облегчения работы по сбору информации.

Встает вопрос — чем читать RSS. Таких решений пруд-пруди. Но лично у меня два фаворита — это Feedly [1] и RssOwl [2].

Первая — одна из лучших читалок для RSS, красивая, мощная, с кучей преднастроенных источников. Вам даже ничего искать не надо, просто нашли нужные источники в поиске и подписались на них. В общем, кто за эстетику и удобство — это в Feedly. Правда имейте в виду, что он немножко платный.

RssOwl — это олдскул. Как говорится, нет школы лучше, чем старая школа. Каждая RSS подключается вручную. Но! В RssOwl можно настроить семантику: если текст из RSS соответствует некоторым заданным ключевым словам — новость попадет в отдельную папку. Этакий Avalanche на минималках. К тому же бесплатно! Чего еще желать!

RssOwl — это моя первая любовь. Еще в Питере, работая в госструктурах, я с ее помощью настроил целую систему мониторинга, которой пользовались еще несколько лет после моего ухода.

Про RSS и парсинг сайтов мы еще с вами поговорим. Тема-то неисчерпаемая. И там есть очень много интересного. А пока — пользуйтесь инструментами на здоровье.