Найти тему
Журнал «Код»

Как получить полезные знания из больших данных

Оглавление

Введение в эконометрику + бесплатный курс про данные

Вот все говорят — аналитика. А ты попробуй извлечь из данных полезные в народном хозяйстве знания. Чтобы не просто в эксельке сложить сумму столбиком, а чтобы было что-то реально полезное. Одна из дисциплин, которая помогает получить эти полезные знания из данных, — эконометрика. Вот про неё расскажем сейчас.

По ходу текста нам будет помогать эксперт — Вячеслав Крамков. Он преподаёт эконометрику в ВШЭ. Но сначала прочитайте то, что у нас уже есть по анализу данных:

А теперь переходите к эконометрике.

Что такое эконометрика

Представим ситуацию: аналитик в компании получил задание проанализировать таблицу с данными. Проводился опрос среди населения, в ходе которого собрали такие данные: пол, возраст, уровень образования, наличие детей, какая зарплата и сколько часов работает. Всего 6 183 наблюдения, но не в каждом наблюдении есть все данные.

Аналитику нужно найти взаимосвязи между произвольными факторами. Например, влияет ли количество отработанных часов на размер зарплаты.

Часть данных представлена в таблице:

-2

Очевидно, что если посмотреть на таблицу, ничего не будет понятно. Ну, есть id, work, gender, city — и что? Именно здесь приходят на помощь инструменты эконометрики.

⚠️ Следующие несколько абзацев будет ничего не понятно — это нормально. Просто наблюдайте.

Аналитик решил проверить, правда ли, что количество часов работы влияет на размер зарплаты, и если да — как? Он начинает с чистки данных: удаляет пустые строки, в которых нет нужных ему данных. Так выборка сокращается до 2 903 наблюдений. Этого не слишком много, но аналитику хватит.

Фрагмент таблицы, почищенной от ненужных строк
Фрагмент таблицы, почищенной от ненужных строк

Дальше он строит, внимание, регрессию с зависимой переменной ln (hours) на независимую переменную ln (wage). Перевод: он будет проверять, на сколько процентов изменится зарплата при увеличении количества отработанных часов (в процентах). Дальше происходит математика, и получаются следующие значения:

-4

Понимая, что означают эти коэффициенты, аналитик делает вывод:

В представленных данных наблюдается, что при увеличении количества часов на 1% зарплата уменьшается на 65%

Это парадоксальный вывод, аналитик его перепроверяет и видит, что всё верно: кто больше работает, тот меньше зарабатывает. Почему этот вывод может казаться нам парадоксальным:

  • Мы смотрим не на те взаимосвязи. Может быть, нужно смотреть на связь зарплаты и возраста или зарплаты и наличия детей.
  • Мы думаем, что из этого вывода следует, что нужно работать на 1% меньше, и зарплата резко вырастет. Но этого из данных не следует.

Всё, что говорит нам этот расчёт, — что существует взаимосвязь в данных.

Понятно, что конкретно этот вывод нам не особо помогает. Можно поделать ещё разных регрессий и получить вот такие выводы:

— Зарплата у городских жителей на 31% выше, чем у жителей сельской местности.

— При увеличении производительности на 1% зарплата увеличивается на 2%.

— При увеличении уровня образования на 1% зарплата увеличивается на 6%.

— В среднем зарплата у женщин меньше на 32%.

— Зарплатный пик — 35 лет. До 35 лет зарплата у человека растёт, а дальше падает.

Эти выводы верны для конкретной модели и именно для этих людей. Насколько выборка репрезентативна по всей популяции РФ — неизвестно. Она может быть репрезентативной по какому-то городу, но не репрезентативной по региону или стране. Но для нашей выборки в 6 000 человек ситуация такая.

Эконометрика — это инструменты, которые помогают проанализировать большой массив данных и сделать выводы о закономерностях и взаимосвязях. Аналитик берёт таблицу с данными, считает нужные для анализа коэффициенты и интерпретирует их. Огромную таблицу из тысяч наблюдений он превращает в несколько лаконичных выводов (иногда неинтуитивных).

Эконометрика — это и есть анализ данных?

Поясняет Вячеслав Крамков из НИУ ВШЭ:

«Эконометрика — это не весь анализ данных, но достаточно обширная его часть. Это та часть анализа данных, которая помогает определить причинно-следственные связи. В эконометрике не так важна точность прогнозов, как понимание, откуда появился такой-то вывод и почему.

Вообще, эконометрика появилась впервые в экономике, потому что в других науках были способы анализировать причинно-следственные связи, а в экономике — нет. Сейчас эконометрика распространяется далеко за пределы экономической науки».

Как связаны эконометрика и программирование?

Аналитик не может оставить результаты в таблице — так никому будет ничего не понятно. Тогда он может обратиться к Python и визуализировать данные. В целом весь анализ можно также проводить на Python или на языке программирования R, а не в Экселе. Здесь зависит от человека — кому как удобнее и кто к чему привык.

Это визуализация данных, из которых неподготовленный читатель может сделать вывод, что рост числа часов связан со снижением зарплаты
Это визуализация данных, из которых неподготовленный читатель может сделать вывод, что рост числа часов связан со снижением зарплаты

Кому нужна эконометрика?

В работе эконометрика полезна аналитикам, которые работают с собранными данными. Например, когда им нужно преобразовать данные в выводы. Понимание основ эконометрики делает аналитика крутым среди специалистов — именно таких аналитиков часто ищут в ЦБ, «Сбер» и «Тинькофф». Таким специалистам предлагают зарплаты от 200 000 рублей.

Косвенно эконометрика пригодится инженерам и дата-сайентистам. Им тоже приходится работать с данными и обучением.

Что нужно, чтобы разобраться в эконометрике

Логический склад ума. Придётся много анализировать и интерпретировать.

Математическая база. Полезно, если вы когда-то были связаны с высшей математикой — например, изучали матан в университете. Внутри эконометрического анализа много расчётов из линейной алгебры и матстатистики. Без математической базы будет сложно понять, почему расчёты происходят именно так.

Если у вас нет математической базы — это тоже ок. Сейчас существуют программы, которые за вас сделают все расчёты. Ваша задача — только их интерпретировать и визуализировать.

Желание много и монотонно работать с данными. Здесь всё так же, как у разработчиков: мало творчества, много работы с информацией. Придётся кропотливо учить теорию и повторять за преподом в Экселе или в Python. Зато как результат — вы крутой специалист, который работает с анализом данных и получает много денег.

Что дальше, кэп?

Дальше мы расскажем, что такое модели в эконометрике и как они работают. Постараемся просто и быстро.

А если хотите узнать подробнее про анализ данных — идите в «Практикум». У них есть такой курс.

Наука
7 млн интересуются