25 подписчиков
Наукастинг ВВП: альтернативные данные
#лонгрид
Последний (по крайней мере на ближайшее время) лонгрид про наукастинг посвятим вопросу использования альтернативных данных.
Как я уже писал неделей ранее, одно из важнейших требований к объясняющим переменным для их использования при наукастинге - это оперативность их публикации. Чем оперативнее публикуется показатель, тем быстрее мы сможем посчитать наукаст и, что логично, тем больше от этого показателя получается пользы.
К сожалению, большая часть "классических" объясняющих переменных не всегда достаточно оперативна: данные по промышленному производству за октябрь у нас опубликуют 29 ноября (вместе с многими другими показателями), инфляция задерживается меньше, на 3-4 дня, но всё равно недоступна сразу. Есть и оперативные индикаторы: те же биржевые цены на товары (на нефть, к примеру) и фондовые индексы, но их не всегда хватает для построения хороших оценок.
Это мотивирует использование разного рода "альтернативных данных", которые публикуются быстрее классических, а описывают явления, качественно отличающиеся от просто событий на биржах. Сюда попадают: динамика поисковых запросов (Google/Яндекс-тренды), оценки тональности новостей и комментариев в соцсетях (сентимент) и другие нестандартные показатели, которые (чаще всего) получаются на основе анализа происходящего в Интернете.
В отличие от стандартных макропоказателей, тут возникает много сложных вопросов: какие брать запросы для анализа динамики запросов, по каким СМИ / соцсетям / группам в этих соцсетях оценивать сентимент, как агрегировать полученное множество показателей (а их могут быть сотни и тысячи!) в меньшее число переменных, которые потом будут использоваться в модели.
Несмотря на все эти сложности, альтернативные данные нередко позволяют заметно улучшить качество моделей (хотя и "волшебной палочкой" они не являются, к сожалению или счастью) и безусловно могут и даже должны использоваться при прогнозировании и наукастинге
1 минута
25 ноября 2023