Найти в Дзене
PharmaDataLab

Прогнозирование и любимый ML

Прогнозирование и любимый ML Сейчас, кажется, каждая компания мечтает «предсказывать будущее» с помощью моделей машинного обучения. Вот только чаще всего забывают спросить себя - а готовы ли данные к этому будущему? Завершился второй поток курса Data Science в медицине, где я веду доп. блок по анализу медицинских данных. Студенты начали присылать итоговые проекты - прогнозные модели. Кто-то делает классические линейные и полиномиальные регрессии, кто-то деревья решений, random forest, кто-то XGBoost, LightGBM, Prophet или стекинг. Я не ограничиваю - пусть фантазия работает. Параллельно на рабочем проекте мы в Core BI решаем похожую задачу - строим прогнозы ключевых бизнес-метрик. Используем стекинг с набором моделей: • MSTL_classic • MSTL_theta_trend • AutoETS • AutoTheta • SeasonalNaive Все они работают с временными рядами, учитывают сезонность и тренды. Где-то ARIMA, где-то экспоненциальное сглаживание, где-то автонормализация. А результат - бывает разный. 🎯 И тут проявляется с

Прогнозирование и любимый ML

Сейчас, кажется, каждая компания мечтает «предсказывать будущее» с помощью моделей машинного обучения.

Вот только чаще всего забывают спросить себя - а готовы ли данные к этому будущему?

Завершился второй поток курса Data Science в медицине, где я веду доп. блок по анализу медицинских данных.

Студенты начали присылать итоговые проекты - прогнозные модели. Кто-то делает классические линейные и полиномиальные регрессии, кто-то деревья решений, random forest, кто-то XGBoost, LightGBM, Prophet или стекинг. Я не ограничиваю - пусть фантазия работает.

Параллельно на рабочем проекте мы в Core BI решаем похожую задачу - строим прогнозы ключевых бизнес-метрик. Используем стекинг с набором моделей:

• MSTL_classic

• MSTL_theta_trend

• AutoETS

• AutoTheta

• SeasonalNaive

Все они работают с временными рядами, учитывают сезонность и тренды. Где-то ARIMA, где-то экспоненциальное сглаживание, где-то автонормализация. А результат - бывает разный.

🎯 И тут проявляется самое интересное.

Речь именно про задачи прогнозирования. ML не даёт чудес. Он просто берёт прошлое, слегка его припудривает и говорит:

«Вот тебе будущее, почти то же самое, что прошлое, только дороже». И чем сложнее модель, тем сложнее интерпретировать результаты. Иногда кажется, что в этих black box больше поэзии, чем математики.

Одна студентка добилась R² = 0.9, MAPE ~18%, на противомикробных средствах. Впечатляюще. Но без теста на переобучение и кроссвалидацию это, возможно, не инсайт, а совпадение.

💡 К чему я это всё?

ML не панацея.

Сегодня из каждого утюга рассказывают, как “ML-алгоритмы предсказывают продажи и революционизируют маркетинг”.

Но когда начинаешь разбирать конкретные кейсы, оказывается:

1️⃣ допущений больше, чем данных,

2️⃣ гипотез - больше, чем проверок,

3️⃣ интерпретация - фантазия, только без хэппи-энда.

Ресурсов в это зарывается колоссально, а реальная бизнес-ценность чаще всего заканчивается там же, где начинается здравый смысл.

Про похожую тему очень точно написал Саша Бараков (Data Nature) — про “пререквизиты” для AI-агентов. ИИ или AI агенты - это одна из самых горячих тем сейчас по ML, как в BI дашборд без дашборда в параллели с прогнозированием.

Если у вас не отстроены базовые слои - core data layer, semantic layer, metric registry, data governance - любые эксперименты с ML превращаются в утилизацию ресурсов.

Не потому что ML плохой, а потому что фундамент ещё не готов держать этот вес.

🧠 В аналитике, как и в строительстве, не спасает дизайнерская крыша, если у дома нет фундамента.

И чем дольше я наблюдаю за волной “прогнозных ML-проектов”, тем больше убеждаюсь: что не всё так однозначно, не всегда можно определить значимое велью для бизнеса, иногда старый добрый и холодный аналитический разум приносят бизнесу больше пользы, чем десяток стекингов, миллион фичей и горящий дедлайн “до понедельника”.

А если модель всё ещё кажется волшебной - значит, вы просто не видели исходные данные.

Добавите?