Цикл статей о цифровой экономике от Светослава Зверева эксклюзивно для АНО "Содружество Экономического Развития". Часть 4
Автор: Светослав Игоревич Зверев — цифровой аналитик, член Российского союза журналистов, преподаватель
Специально для АНО «Содружество Экономического Развития»
---
Вступление: Почему я называю себя цифровым аналитиком
Коллеги, сегодня я хочу поговорить с вами не как журналист и не как преподаватель. Сегодня я хочу пригласить вас в свою «лабораторию». Туда, где я провожу бо́льшую часть времени, когда не пишу статьи и не читаю лекции.
Я — цифровой аналитик.
Звучит громко? Возможно. Но за этим титулом стоит простая истина: я умею брать данные, пропускать их через математические модели и на выходе получать прогнозы. Прогнозы о том, как поведёт себя рынок, куда пойдут цены, какие отрасли взлетят, а какие рухнут.
Я не экстрасенс. Я не гадаю на кофейной гуще. Я просто знаю, что будущее уже зашифровано в настоящем. Нужно лишь уметь читать этот шифр. И математика даёт нам ключи.
---
Глава первая: Четыре этажа аналитики — от прошлого к будущему
Прежде чем мы нырнём в дебри прогнозирования, давайте договоримся о терминах. В мире данных существует стройная иерархия. Её полезно знать каждому, кто хочет называть себя аналитиком.
Первый этаж: Описательная аналитика (что случилось?)
Это самый простой уровень. Мы собираем данные за прошедший период и отвечаем на вопрос: «Что произошло?».
Продажи упали на 10% по сравнению с прошлым месяцем. Курс акций вырос на 5%. Посещаемость сайта увеличилась в два раза после рекламной кампании.
Описательная аналитика — это зеркало заднего вида. Она показывает, где мы были, но ничего не говорит о том, куда мы едем. Это важно, но недостаточно.
Второй этаж: Диагностическая аналитика (почему случилось?)
Здесь мы копаем глубже. Мы не просто фиксируем факты, мы ищем причины.
Почему упали продажи? Ах, вот оно что — конкуренты запустили акцию, а мы проспали. Почему вырос курс? Потому что компания отчиталась о рекордной прибыли.
Диагностическая аналитика — это уже работа следователя. Мы ищем причинно-следственные связи. Но это всё ещё взгляд в прошлое.
Третий этаж: Прогнозная аналитика (что случится?)
А вот здесь начинается магия. Прогнозная аналитика (predictive analytics) использует исторические данные, чтобы предсказывать будущее.
Мы смотрим на график продаж за три года, учитываем сезонность, праздники, рекламные кампании, погоду, макроэкономические показатели — и на выходе получаем модель, которая говорит: «В следующем месяце ждите рост на 7%».
Это уже не зеркало заднего вида. Это фары, освещающие дорогу в темноте.
Четвёртый этаж: Предписывающая аналитика (что делать?)
Самый сложный и самый ценный уровень. Мало сказать, что случится. Надо сказать, что с этим делать.
Предписывающая аналитика не просто прогнозирует, она рекомендует решения. Модель не только предсказывает, что через месяц спрос взлетит, но и говорит: «Увеличьте запасы на складе №5 на 20%, наймите 15 дополнительных курьеров и поднимите цены на 3%, чтобы максимизировать прибыль».
Я, как цифровой аналитик, работаю на стыке третьего и четвёртого этажей. Моя задача — не просто сказать «будет дождь», а подсказать, брать ли зонт или лучше остаться дома.
---
Глава вторая: Три кита прогнозирования — данные, математика, интерпретация
Любой прогноз стоит на трёх основаниях. Если хотя бы одно хромает, предсказание превращается в гадание.
Кит первый: Данные
Знаете, как звучит самая частая проблема в прогнозировании? «Мусор на входе — мусор на выходе». Если данные грязные, никакая супер-сложная нейросеть не спасёт.
Что значит «грязные данные»? Это дубликаты, пропуски, разные форматы, технические сбои. Представьте, что у вас в таблице с продажами какой-то период просто выпал, потому что сервер лежал. Модель увидит «провал» и решит, что так и должно быть. Или, наоборот, решит, что это аномалия, и попытается её сгладить. И то, и другое — ошибка.
Поэтому любой уважающий себя аналитик начинает не с моделей, а с очистки данных. Это скучно, это долго, это занимает 80% времени. Но без этого — никуда.
Где мы берём данные? Всюду.
Внутренние данные компании — история продаж, остатки на складах, данные о клиентах, промо-акции. Это база.
Внешние данные — макроэкономические показатели (ВВП, инфляция, ключевая ставка), погода, календарь праздников, даже данные конкурентов, если удаётся их достать.
Для прогноза спроса на мороженое критически важна погода. Для прогноза цен на нефть — новости с Ближнего Востока. Для прогноза курса акций — тональность новостей и посты в соцсетях.
Чем больше качественных данных, тем точнее прогноз. Но есть нюанс: данные должны быть релевантны. Бессмысленно тащить в модель прогноза продаж жевательной резинки данные о погоде — она на них никак не влияет.
Кит второй: Математика (модели и алгоритмы)
Вот здесь начинается самое интересное. Как именно мы превращаем цифры в предсказания?
Существует целый зоопарк методов. Я расскажу о самых популярных.
Классика: модели временных рядов
Это старые, проверенные десятилетиями методы. Они хороши, когда у нас есть только история и мы хотим её продолжить.
Метод Хольта-Винтерса — учитывает тренд (куда движется ряд) и сезонность (повторяющиеся циклы). Отлично работает для товаров со стабильным спросом.
SARIMA (сезонная авторегрессионная интегрированная скользящая средняя) — более сложная модель, которая умеет находить зависимости внутри самого ряда. Её часто используют для краткосрочных прогнозов.
Prophet — модель, разработанная Facebook (запрещена в РФ). Она специально заточена под бизнес-задачи, умеет учитывать праздники и точки изменений тренда.
Современность: машинное обучение
Классические модели хороши, но у них есть ограничения. Они плохо учитывают сложные нелинейные зависимости и большое количество внешних факторов. Здесь на сцену выходит машинное обучение.
XGBoost — один из самых популярных алгоритмов. Это «усиление градиента», метод, который строит ансамбль из множества «слабых» деревьев решений и объединяет их в один мощный предсказатель. XGBoost отлично работает с табличными данными и часто даёт лучшие результаты на соревнованиях Kaggle.
Нейросети — самые мощные, но и самые капризные инструменты. Они требуют огромных объёмов данных и вычислительных ресурсов. Рекуррентные нейросети (LSTM) особенно хороши для прогнозирования временных рядов, потому что умеют запоминать долгосрочные зависимости.
Ансамблирование — это когда мы не полагаемся на одну модель, а запускаем сразу несколько (например, SARIMA, XGBoost и нейросеть), а потом усредняем их прогнозы. Это почти всегда даёт более стабильный и точный результат, потому что ошибки отдельных моделей компенсируют друг друга.
Продвинутый уровень: учёт новостного фона
Одна из самых интересных задач — прогнозирование рынка с учётом того, что пишут в новостях. Мы живём в информационную эпоху, и новости двигают рынки сильнее, чем многие фундаментальные показатели.
Как это работает? Мы собираем новостные заголовки и тексты, очищаем их от мусора, а дальше применяем специальные методы:
TF-IDF — метод, который оценивает важность слов в тексте. Чем чаще слово встречается в конкретной новости, но реже — во всех новостях вообще, тем оно важнее. «Нефть», «санкции», «ОПЕК+» — такие слова получат высокий вес.
Тематическое моделирование (LDA) — алгоритм, который сам находит скрытые темы в массиве новостей. Например, он может выделить тему «геополитика», тему «стихийные бедствия», тему «технологические прорывы» и показывать, как меняется их интенсивность день ото дня.
Эти новостные признаки мы затем добавляем в модель как дополнительные факторы. И точность прогноза ощутимо растёт.
Кит третий: Интерпретация
Самый тонкий момент. Модель выдала цифру. Что дальше?
Цифру надо понять. Надо объяснить бизнесу, почему модель считает именно так. Надо отделить сигнал от шума. Надо понять, где модель права, а где она просто «переобучилась» — выучила прошлое наизусть, но не умеет обобщать.
Интерпретация — это искусство. Это то, что отличает настоящего аналитика от просто «оператора статистических пакетов».
Я всегда говорю своим студентам: «Машина считает, а человек думает». Модель даёт вам сырой материал. Но окончательное решение принимаете вы. И вы должны понимать, почему.
---
Глава третья: Как мы оцениваем точность прогноза
Хороший прогноз — это не просто цифра. Это цифра, к которой прилагается оценка её надёжности.
Есть несколько метрик, которые используют профессионалы.
MAE (средняя абсолютная ошибка) — мы считаем, насколько в среднем наш прогноз отклоняется от реальности в абсолютных цифрах. Просто и понятно.
RMSE (корень из среднеквадратичной ошибки) — похоже на MAE, но сильнее штрафует за большие ошибки. Если для вас критично не промахиваться сильно даже редко — смотрите на RMSE.
MAPE (средняя абсолютная процентная ошибка) — показывает ошибку в процентах. Удобно, когда нужно сравнить качество прогноза для разных товаров или рынков.
Но есть важный нюанс. Самая лучшая модель на исторических данных может провалиться в будущем. Почему? Потому что мир меняется. Рынок — это живой организм. То, что работало вчера, может перестать работать завтра.
Поэтому модели нужно постоянно переобучать на новых данных и постоянно проверять их качество.
---
Глава четвёртая: Реальные кейсы из моей практики
Теория теорией, но давайте посмотрим, как это работает в реальности. Я расскажу о нескольких случаях из своей аналитической практики (разумеется, соблюдая конфиденциальность).
Кейс первый: Ритейл и погода
Ко мне обратилась сеть магазинов продуктов. Их мучила проблема: то мороженого не хватает в жару, то его выбрасывают в дождь. Задача: научиться прогнозировать спрос с учётом погоды.
Мы собрали данные за три года: продажи по дням, по часам, по каждому магазину. Добавили исторические данные о погоде — температуру, осадки, облачность. Обучили модель XGBoost.
Результат: точность прогноза выросла на 29% по сравнению с предыдущей моделью, которая учитывала только прошлые продажи. Магазины перестали задыхаться от дефицита в жару и перестали выбрасывать тонны продукта в дожди. Экономия — миллионы рублей в год.
Кейс второй: Финансовый рынок и Газпром
Другая задача — прогнозирование акций. Ко мне обратились частные инвесторы с просьбой помочь разобраться в перспективах акций ПАО «Газпром».
Мы взяли исторические котировки за пять лет. Применили не одну модель, а целый ансамбль методов: описательную статистику, трендовые модели, анализ волатильности.
Что показала модель? Ожидаемая средняя доходность акций Газпрома на горизонте года — около 5,6%. При этом вероятность получить доход выше 10% — 37%. А вот вероятность уйти в минус тоже немаленькая — рынок остаётся волатильным.
Мы построили для инвесторов несколько сценариев и показали, как распределять риски. Это не гарантировало прибыль, но давало понимание, на что идти.
Кейс третий: Новости и валютный рынок
Самый сложный и интересный проект — прогнозирование валютного курса с учётом новостного фона. Мы брали ленты новостей, обрабатывали их с помощью TF-IDF и тематического моделирования, а затем добавляли эти данные в модель SARIMAX.
Результат оказался впечатляющим. Модель научилась «чувствовать» рынок. Когда появлялись негативные новости о санкциях, она заранее предсказывала ослабление рубля. Когда новости были позитивными — укрепление.
Точность на краткосрочных горизонтах (до 5 дней) достигла 80%. Конечно, на долгосрочных горизонтах точность падала — слишком много факторов начинают вмешиваться. Но для трейдеров, работающих внутри дня или недели, это оказалось бесценным инструментом.
---
Глава пятая: Почему идеальных прогнозов не бывает
Я был бы нечестен, если бы не рассказал об ограничениях. Прогнозная аналитика — это не хрустальный шар. У неё есть границы.
Проблема первая: нестационарность
Рынки постоянно меняются. То, что было истиной вчера, сегодня уже не работает. Спектр ценовых колебаний «плывёт» во времени. Модель, идеально обученная на данных 2020-2023 годов, может провалиться в 2024-м, потому что изменилась структура экономики.
Проблема вторая: чёрные лебеди
Никакая модель не предскажет войну, пандемию или внезапное извержение вулкана. Это события с низкой вероятностью, но колоссальными последствиями. Когда они происходят, все прогнозы летят в тартарары.
Проблема третье: самоисполняющиеся и саморазрушающиеся прогнозы
Если модель предсказала дефицит, и все ринулись скупать товар — дефицит наступит именно потому, что его предсказали. И наоборот: если модель предсказала падение акций, инвесторы могут начать сбрасывать бумаги, и падение произойдёт, хотя без паники его могло и не быть.
Рынок — это живая система, которая реагирует на прогнозы. Это делает задачу аналитика бесконечно сложной и бесконечно интересной.
---
Заключение: Зачем это изучать
Я рассказал вам о том, чем занимаюсь как цифровой аналитик. О данных, моделях, ошибках и победах.
Зачем это знать вам?
Потому что мир становится всё более цифровым. Потому что данные — это новая нефть, а умение их анализировать — новая грамотность. Потому что те, кто умеет заглядывать в будущее хотя бы на шаг вперёд, получают колоссальное конкурентное преимущество.
Я не призываю всех становиться аналитиками данных. Но я призываю всех научиться думать аналитически. Понимать, откуда берутся цифры, как их интерпретировать и когда им можно верить.
В следующих лекциях мы будем погружаться в детали. Мы разберём каждый метод отдельно, научимся работать с реальными данными, построим свои первые модели.
А пока — запомните главное. Цифровой аналитик — это не профессия. Это способ видеть мир. Способ находить порядок в хаосе и закономерности в случайностях. Способ заглядывать за горизонт.
И я приглашаю вас в это путешествие.
---
Лекцию подготовил Светослав Игоревич Зверев, цифровой аналитик, член Российского союза журналистов, специально для АНО «Содружество Экономического Развития».
#ано_содружество_экономического_развития
#экономика
#международка
#СветославЗверев