Доступно и конкретно - об одном из ключевых эконометрических понятий
От редакции. Этой статьей АТЧСУ начинает серию публикаций, посвященных практическому эконометрическому анализу. Звучит, конечно, страшно и академично. Но на самом деле эконометрика – это способ сопоставить и связать между собой величины, которые описывают любую экономическую деятельность: выручку, чистую прибыль, издержки и т.д. Эти величины безусловно знакомы каждому, кто ведет бизнес, независимо от его масштаба: от самозанятого («работающего на себя») педагога до собственников национальных вертикально-интегрированных холдингов. И от того, насколько адекватно конкретный менеджер понимает эти взаимосвязи, зависит эффективность его бизнеса. Нюанс, однако, в том, что в больших фирмах обычно имеется целый департамент специальных умников (без всякого сарказма), вооруженных к тому же хитрыми скриптами и математическими моделями, которые и заняты подобным анализом. А вот в малом и среднем бизнесе эту почетную миссию взять на себя решительно некому – как по причине отсутствия времени, так и должных знаний. И если со временем мы помочь не в силах, то со знаниями – вполне.
Небольшая техническая ремарка. Все примеры имеют сквозную нумерацию, а их текст отделяется от основного текста двумя косыми чертами //, которые ставятся в начале и конце примеров.
Вместо введения
Начнем сразу же с практического примера. Пусть некая фирма решает нанять дополнительных специалистов по продажам для того, чтобы увеличить объем сбыта. Как оценить, исходя из полученных результатов, целесообразность такого решения? Ответ на этот вопрос сложнее, чем кажется, и требует различать два аспекта.
Пусть объем сбыта не увеличился.
С одной стороны, это может означать, что бОльшее количество продавцов не смогло продать больше, следовательно, решение было нецелесообразным. Иначе говоря, имело место отсутствие результата какого-то действия.
С другой стороны, это может означать, что увеличение количества продавцов в принципе не может повлиять на объем продаж, независимо от того, много ли продавцов было принято на работу и насколько хорошо они работали. В этом случае мы говорим об отсутствии связи между действием и результатом.
В первом случае между увеличением количества продавцом и объема сбыта была причинно-следственная (или каузальная) связь, даже несмотря на то, что объем сбыта не вырос. Во втором – такой связи не было, и даже если бы объем сбыта увеличился – это произошло по каким-то иным неучтенным причинам.
//Пример 1
Аналогия здесь примерно следующая. Некто хочет сбить температуру, используя всем известный Нурофен. После его употребления температура, как ни странно, может и не упасть (например, при сильном воспалении), но, тем не менее, Нурофен действительно способен влиять на температуру. Напротив, после употребления гораздо более известной водки, температура может и упасть, хотя алкалоиды жаропонижающим действием не обладают.//
Очевидно, что различие между отсутствием результата и отсутствием связи имеет принципиальное значение для принятия тех или иных управленческих решений. В нашем примере фирма (в лице собственников) может решить заменить конкретных специалистов или менеджмент, считая, что те «плохо работают» или, напротив, попробовать ввести иную мотивацию или снова увеличить их количество. Однако если проблема состоит в отсутствие именно причинно-следственной связи, то указанные попытки приведут только к дополнительным издержкам.
В порядке отступления приведем и более сложный пример. Представление о причинно-следственной связи является ключевым элементом в любом прогнозировании, которое, вообще говоря, является самым слабым местом в бизнес-планировании. Соответствующий вопрос можно было бы сформулировать так: если в настоящее время неким продуктом фирмы пользуется, скажем, 15 процентов потребителей, то в силу каких соображений мы можем быть уверены, что через некоторое время это количество вырастет до 25 процентов?
Логически обоснованный ответ выглядел бы следующим образом (формально):
//Пример 2.
Если причины, обусловившие приобретение продукта первой группой потребителей, являются теми же самыми, что и для другой группы потребителей, то при прочих неизменных условиях, другая группа тоже может приобрести указанный продукт.
«Может» здесь указывает на то, что наличие причинно-следственной связи вовсе не гарантирует результата – как это уже подчеркивалось выше.//
Содержательно же общий принцип можно проиллюстрировать так:
//Пример 3.
Все женщины любят Айфоны, следовательно, если в настоящее время ими пользуется 15 процентов женщин, то можно ожидать, что их количество вырастет до 25 процентов.
Формулировка «Все женщины любят Айфоны» по существу и выражает тот факт, что между свойством «быть женщиной» и поступком «приобрести Айфон» существует причинно-следственная связь. А условие «может» означает, что некая фирма, запланировавшая увеличить объем проданных аппаратов, в данных условиях поставленной цели не достигнет, например, потому что у ее потенциальных клиенток пока недостаточно средств на такую покупку.//
И именно поэтому само понятие причинно-следственной связи находится в центре эконометрического анализа.
Наша дальнейшая цель состоит, таким образом, в том, чтобы раскрыть и объяснить это понятие, опираясь на наиболее значимые работы статистиков и экономистов. Это, прежде всего, фундаментальный труд Гвидо Имбенса (Guido Imbens) и Дональда Рубина (Donald Rubin) «Причинно-следственная связь для статистики, социальных и медико-биологических наук. Введение» (Causal Inference for Statistics, Social, Biomedical Sciences An Introduction). А также на книгу ни много ни мало, лауреатов Нобелевской премии по экономике: Джошуа Энгриста (Joshua Angrist) и Йорна-Штефана Пишке, прежде всего на их «Овладевая измерением: путь от причины к следствию» (Mastering’Metrics: The path from cause to effect). Изначально мы вообще хотели ограничиться обсуждением Энгриста и Пишке, поддавшись магии их статуса, но потом внезапно обнаружили, что некоторые существенные моменты выглядят необъяснимо, хотя, вероятно, они и верны.
Причинно-следственная (каузальная) связь
Нужно сразу отметить, что, несмотря на некоторую формальность (использованию переменных и некоторых математических операций), в своих основах понятие о причинно-следственной связи весьма простое.
В нашем примере решение об увеличении количества продавцов является действием (action, treatment). Обозначим его через Х. Вообще-то говоря, здесь имеет место два действия: увеличить количество продавцов и не увеличивать. Поэтому запись можно уточнить так Х(увеличить количество продавцов) и Х (не увеличивать).
Каждое действие может иметь как минимум два результата: объем сбыта увеличился (что, собственно, и было целью) или же объем сбыта не увеличился (как минимум, а как максимум – даже уменьшился). Понятно, что по сравнению с каким-то прошлым периодом, когда количество продавцов было прежним. Сказанное можно выразить так:
//Пример 4.
Х(увеличить количество продавцов) = сбыт вырос /это первый результат для первого действия
Х (увеличить количество продавцов) = сбыт не вырос /это второй результат для первого действия
Х(не увеличивать количество продавцов) = сбыт вырос/это первый результат для второго действия
Х (не увеличивать количество продавцов) = сбыт не вырос /это второй результат для второго действия.//
В реальности в один и тот же момент фирма может выбрать только одно действие: либо нанять дополнительных сотрудников, либо не нанимать, но не два одновременно. Соответственно, в реальности будет наблюдаться только один результат из двух. Все остальные результаты (в том числе и те, которые бы появились при выборе противоположного действия) являются потенциальными. Потенциальные они потому, что могли бы иметь место
Здесь снова подчеркнуть фокус нашего интереса. По большому счету, абсолютно неважно, увеличился или не увеличился сбыт в результате найма дополнительных сотрудников – это говорит только о том, насколько успешным было это действие. Нас же интересует то, что могло бы произойти, если бы фирма предприняла противоположное действие – не наняла дополнительных сотрудников. И какова была разница в результатах противоположных действий.
Прозвучит это курьезно, но пусть каким-то невероятным образом мы бы смогли узнать, что бы произошло, если бы фирма осуществила одновременно два противоположных действия – подчеркнем, что в реальности это невозможно. Фирма наняла дополнительных сотрудников – и объем сбыта вырос на 5 сделок. Фирма не наняла дополнительных сотрудников – сбыт не увеличился, то есть прирост составил 0 сделок. Таким образом, разность между двумя действиями Х (увеличить количество продавцов) и Х (не увеличивать количество продавцов) равна: Х (увеличить)=5 вычесть Х(не увеличивать)=0 равна 5. Таким образом, мы бы смело могли заключить, что между наймом дополнительных сотрудников и увеличением сбыта есть причинно-следственная связь. Этот же вывод будет справедлив, если бы имело место другая ситуация. Фирма наняла – сбыт вырос на 2 сделки. Фирма не наняла – сбыт вырос на 3 сделки. Разность в этом случае составляет несколько странную «минус одну сделку», но математические тонкости здесь не важны.
Отсюда следует исключительно важный вывод: причинно-следственная связь имеет место тогда и только тогда, когда разность между противоположными исходами не равна нулю. Если речь идет о идет о разности противоположных действий для одного и того же объекта (в нашем случае, одной и той же фирмы), то мы говорим об истинной причинно-следственной связи.
Кстати, в самом начале мы поставили своей целью разделить связь и результат, отметив, что результата может и не быть, тогда как связь актуально имеет место. Для оценки же эффективности противоположных действий достаточно просто изучить разность исходов двух действий – собственно, так и поступают экономисты, рассчитывая так называемые «альтернативные издержки».
В этой концепции все весьма просто, убедительно, но имеется одна главная проблема: дело в том, что потенциальные исходы нам остается неизвестными – просто по определению. Иначе говоря, мы никогда не узнаем, что же произошло бы в реальности, если бы фирма не наняла дополнительных сотрудников. Поэтому для получения данных об исходе противоположного действия приходится искать обходные пути.
Результаты, искажения, случайность
Все наши усилия выше были направлены на то, чтобы описать различие между отсутствием причинно-следственной связью и отсутствием результата, и вообще говоря, это и было главной целью настоящей статьи. Дело в том, что практически подтвердить или опровергнуть наличие причинно-следственной связи между каким-то действием и результатом гораздо сложнее, поскольку потенциальные исходы нельзя наблюдать.
Теоретически получить данные о других потенциальных исходах можно двумя способами.
В эконометрических (биомедицинских и т.д.) исследованиях используется первый способ.
Суть его в том, что если нельзя наблюдать потенциальные результаты для одного и того же объекта (потребителя, пациента, группы и т.д.), то ничто не запрещает сделать это с другим объектом в схожей ситуации. В книге Имбенса и Рубина речь идет о пациентах, часть из которых получает медикаментозное лечение, а часть – хирургическое, а в работе Энгриста и Пишке – о людях, которые либо приобретают полис страхования, либо нет.
Кратко воспроизведем эту логику на примере из книги Энгриста и Пишке.
//Пример 5
Пусть один гражданин приобретает полис и в результате состояние его здоровья улучшается. То есть, результат приобретения полиса, скажем, 5 баллов из 5 по некоей шкале здоровья – какой неважно. В то же самое время другой человек, который не приобретает этот же полис, имеет оценку состояния своего здоровья 2 балла из 5 по той же шкале. Разность в результатах, равная 3 баллам, должна убедить нас в том, что полис страхования действительно как-то влияет на состояние здоровья.//
И вот здесь возникает основная трудность, связанная с установлением причинно-следственной связи. Непосредственному наблюдению доступен только один из всех потенциальных результатов (также как в реальности можно совершить только одно из противоположных действий). Мы можем сравнить результаты для некоторых индивидов, предпринявших противоположные действия. Однако для второго индивида (как и для третьего, и для четвертого и т.д.) нам также недоступна разность между противоположными для него результатами, то есть, истинная причинно-следственная связь. Поэтому, строго говоря, мы также не знаем, имелась ли в случае со вторым (третьим и т.д.) индивидом причинно-следственная связь. Поэтому, излишне доверяя результатам второго (третьего и т.д.) индивидов и сравнивая их с результатами первого, можно получить искаженное представление о причинно-следственной связи.
//Пример 6 (необязательное пояснение)
Поскольку полного примера ни в одной из указанных работ нет, попробуем реконструировать эту логику. Предположим, что нам доступны данные обо всех результатах для двух указанных граждан.
Пусть для первого индивида:
Х (приобрести полис) = здоровье (5)/ как и в примере 5
Х (не приобретать полис) = здоровье (4)
Разность = +1 (плюс нужен для того, чтобы подчеркнуть, что разность в пользу приобретения полиса)
Пусть для второго индивида:
Х (приобрести полис) = здоровье (1)
Х (не приобретать полис) = здоровье (2)/ как и в примере 5.
Разность= -1 (в пользу не-приобретения полиса).
Теперь если сравнить эти разности, то можно прийти к выводу, что с точки зрения истинной причинно-следственной связи, ее нет. А если же учитывать только наблюдаемые исходы, то, как мы говорили выше, разность в пользу приобретения полиса.//
Такое искажение, которое Энгрист и Пришке называют выборочным искажением (selection bias) или «систематической ошибкой отбора», очевидно, обусловлено какими-то различиями в самих индивидах (объектах). Устранить его можно, вообще говоря, двумя способами.
Первый способ состоит в том, чтобы подобрать максимально похожие объекты – для исключения влияния внутренних различий. Второй – сделать отбор сравниваемых объектов максимально случайным. И практически все значимые эконометрические исследования выполняются с применением техник случайного отбора.
Но «значимые эконометрические исследования» - это, в общем, совсем не то, что может сделать конкретная (и, как говорилось выше) небольшая фирма для обоснования своих действий. В нашем примере ни у одной фирмы не будет двух коммерческих отделов, чью эффективность можно было бы сравнить. Но поскольку при любых условиях для сравнения нужны актуальные противоположные исходы, рассмотрим второй теоретический способ их получения.
Его идея также проста. Если нельзя наблюдать противоположные исходы для разных объектов, то можно наблюдать их для одного объекта, но в разные моменты времени.
В нашем примере фирма могла бы оценить результаты после найма дополнительных сотрудников и через какой-то промежуток времени, когда не «оправдавшие оказанного им вИсокого доверия» ((с) «Кавказская пленница») продавцы были сокращены, а коммерческий отдел продолжил свою работу в прежнем составе.
Этот способ, конечно, гораздо менее корректный, поскольку в промежуток между двумя моментами может произойти много событий (которые называют «фон»). Например, мог прекратить работу ближайший конкурент или внезапно вырасти спрос. И, конечно, напуганные нежданными оргштатными мероприятиями оставшиеся сотрудники могли на самом деле начать работать эффективнее. Все это, безусловно, оказывает влияние на результаты, которое с некоторой натяжкой тоже можно назвать «выборочным».
Что можно сказать о таком способе проверки каузальных связей?
Из отрицательного - во-первых, то, что это чрезвычайно рискованный и затратный способ проверки каких-либо каузальных гипотез. Во-вторых, устранить эффект «выборочного» влияния еще сложнее, чем исправить систематическую ошибку отбора для первого способа.
Из положительного: подобные временнЫе «эксперименты» являются практически единственным доступным инструментом для оценки каузальных связей, если (и когда) кто-то решится осуществить такую оценку на собственном бизнесе.
И потому в назидании нужно подчеркнуть: проверка каузальных гипотез во времени требует усилий по обеспечению случайности выбора моментов для их проверки. Уж если рисковать – то по всем правилам.
А о способах обеспечения случайности отбора или, как говорят, рандомизации, мы поговорим в следующих публикациях.