Найти тему

Как устроена журналистика данных в РИА Рейтинг

Логотип агентства РИА Рейтинг
Логотип агентства РИА Рейтинг

В этом материале — ответы генерального директора рейтингового агентства «РИА Рейтинг» Валерия Третьякова на наши вопросы (специально для Зубовского, 4).

Как вы определяете, что исследовать?

Значительная часть исследований посвящена экономике и социальной сфере. Мы выбираем темы, которые могут вызвать общественный резонанс и конструктивную дискуссию по актуальным проблемам, на основе своего опыта и текущей информационной повестки.

Сколько занимает подготовка одного рейтинга?

Сроки очень отличаются в зависимости от ряда факторов (количество источников информации и количество показателей, сложность расчетов, сложность сбора данных и прочие). В целом сроки могут достигать нескольких месяцев. Обычно регулярные рейтинги готовятся от одной недели до месяца.

Где вы берёте информацию для рейтингов?

Основная информация берется из официальных источников, что является определенной гарантией ее качества. Значительный объем содержится в базах Росстата. Большой объем данных публикуют статистические агентства стран и Евросоюза, центробанки, аналитические агентства и институты, ООН, компании и многие другие.

Каким источникам данных вы не доверяете?

Доверяем официальным источникам и данным. Доверия не вызывают ангажированные источники.

Сколько аналитиков занято над подготовкой одного рейтинга?

Количество занятых подготовкой рейтинга аналитиков отличается в зависимости от сложности и масштабности рейтинга.

Какое образование требуется, чтобы делать рейтинги как у вас?

Требуется понимание экономики и знание математики и статистики, а также умение хорошо писать тексты. Экономическое образование и техническое, наверное, наиболее подходящее, но главное — опыт и навыки в области проводимых исследований.

Вы используете в работе над рейтингами «серьёзную» математику или, может, программирование?

В некоторых случаях, да. Наиболее часто используется аппарат статистического анализа, как правило, это делается на стадии проверки гипотез и построения моделей.

В вашей работе есть автоматизированная часть? Если да, то какая? Или здесь нужна только работа живых экспертов?

Мы в своей работе формируем базы данных, частично работа с ними автоматизирована. Безусловно, заметная часть расчетов автоматизирована. Но работа живых людей крайне важна, так как ошибки в процессе автоматизации могут случаться достаточно часто.

Есть ли в вашей работе т.н. «большие данные» (big data)?

Сложно провести критерий где данные «большие», а где «не очень». У нас есть исследования, где табличные данные составляют несколько сотен миллионов ячеек. Поэтому можно сказать, что скорее работаем с big data.

Используете ли вы для каких-либо целей искусственный интеллект?

Нет, но интересовались уже этой темой.

Вы используете что-либо из данных технологий: парсинг/веб-скрэпинг данных, API каких-либо платформ, языки программирования Python или R?

Да, немного используем парсинг. Но это достаточно маленькая часть нашей работы.

Как вы визуализируете данные? У вас свои дизайнеры, или это уже делают коллеги из РИА?

Визуализация производится совместно с РИА Новости, небольшой объем делаем сами.

Есть ли в РИА Рейтинг такие профессиональные секреты (наработки, ноу-хау) по работе с данными, которых больше ни у кого нет?

Трудно ответить на этот вопрос, поскольку мы точно не знаем, есть ли что-то аналогичное у наших коллег, но на основе имеющейся информации можем заключить, что есть.

А было такое, чтобы кто-нибудь из тех, кто попал в рейтинг, пытался купить себе место получше?

Были случаи, когда речь шла о возможном повышении позиций того или иного объекта рейтинговая. Мы сразу пресекаем подобные вопросы, так как даже простое обсуждение бросит тень на все наши исследования, ведь в современном мире шило в мешке не утаишь. Вопрос репутации здесь имеет первоочередное значение.

При этом стоит отметить, что адекватных откликов от рейтингуемых субъектов намного больше и в данном случае речь идет не о том, чтобы тем или иным искусственным способом повысить позиции, а о том, что должен сделать объект рейтингования, какие показатели фактически улучшить, чтобы занять более высокое место.

Здесь рейтинги выступают в качестве бенчмарка для KPI, что позволяет повышать качество управления объекта рейтингования. Многие регионы используют наши рейтинги в своих стратегиях социально-экономического развития. Для них они выступают ориентирами при формировании региональной политики. Целый ряд рейтингов используются государственными институтами исполнительной и законодательной власти.

Часто интересуются более глубинно методологией, источниками данных и прочими аспектами составления рейтинга. И нередко мы в таких контактах получаем интересные и важные замечания и новые идеи.

Что бы вы как эксперт могли посоветовать тем, кто ищет себя в журналистике данных?

Это достаточно интересная работа, сочетающая в себе журналистику и, в некотором смысле, научную деятельность. Она подходит людям с аналитическим складом ума и хорошим письменным языком.

Последний вопрос Валерий Вячеславович выделил сам. Это для более глубокого погружения в тему.

Что необходимо учитывать при составлении рейтингов?

Необходимо четко формулировать критерий оценки в планируемом рейтинге и выбрать показатели, характеризующие аспекты именно этого критерия. Важно понимать, что скрывается за тем или иным показателем в деталях, поскольку в ряде случаев общее название может скрывать существенные детали, от понимания которых будет зависеть, как использовать этот показатель. Желательно использовать данные для конкретного показателя из одного источника в целях сопоставимости.

Необходимо тщательно проверять и верифицировать данные, которые используются для построения рейтинга. Один из способов проверки — оценка выбросов (резких изменений по отношению к другим членам временного ряда), которые могут быть обусловлены как спецификой процесса в объекте рейтингования, так и ошибкой в источнике. Если невозможно сгладить резкий выброс тем или иным статистическим способом или уточнить, направив запрос в источник, лучше исключить объект рейтингования из списка.

Статистический анализ данных можно проводить с помощью стандартных программ. Необходимо определить степень корреляции используемых показателей, степень влияния на конечный критерий. Можно использовать кластерный анализ, множественные регрессии и т.д.

Принципиальное значение имеет способ обработки выбранных показателей. Здесь возможны самые разнообразные варианты, например, среднее рангов, среднее арифметическое на нормированной линейке значений с весовыми коэффициентами или без них, среднее геометрическое. Выбор зависит от критерия рейтинга и особенностей решаемой задачи.

По итогам построения рейтинга нужно проверять результат. Один из способов проверки — анализ скачков позиций объектов рейтинга по сравнению с предыдущими периодами. Большие скачки требуют повышенного внимания, и если объяснить их невозможно, необходимо проверить методологию и исходные данные. Важно также использовать принцип здравого смысла. Если априори известно, что тот или иной объект рейтингования является отстающим по совокупному критерию, он не может занимать лидирующие позиции. Например, депрессивный регион не может быть лидирующим в рейтинге по социально-экономическому развитию. Если это произошло в результате расчетов, нужно искать ошибку в методологии и/или исходных данных.

Важно четко прописывать публичную методологию рейтинга, поскольку от этого зависит интерпретация результатов и выводы. Во-первых, все должно быть очень прозрачно — это вызывает доверие, во-вторых, любой рейтинг необходимо воспринимать исключительно в контексте тех показателей, которые легли в его основу.

Никогда не занимайтесь анализом данных той сферы, для которой у вас недостаточно знаний. Не зная нюансов, вы получите ложные результаты.