Марина Степанова, выпускница Совместного бакалавриата РЭШ и ВШЭ 2020 г.
Прогнозирование банкротства предприятий является комплексной задачей на стыке риск-менеджмента, эконометрики, а в последнее время еще и машинного обучения. Традиционно это была сфера интересов финансовых организаций, занимающихся оценкой кредитного риска. Однако в последнее время аналогичную задачу решают информационные системы, предоставляющие своим пользователям информацию о финансовом положении контрагентов, например СПАРК. Наличие качественных данных, собираемых такими информационными системами, и применение моделей машинного обучения позволяют проводить более качественную оценку состояния компаний. В моей работе это демонстрируется на примере малых и средних предприятий сельскохозяйственной отрасли путем сравнения результатов классической и инновационной моделей.
Предприятия малого и среднего бизнеса представляют собой значительную и динамично развивающуюся часть рынка. При этом работа с субъектами малого и среднего предпринимательства (МСП) всегда считалась рискованной, так как их состояние быстро меняется под влиянием внутренних и внешних факторов. Тем временем, оценка таких компаний часто осложняется недостатком информации. Во-первых, большинство субъектов МСП ведут упрощенный бухгалтерский учет, так что мы располагаем меньшим числом финансовых показателей. Во-вторых, для данной категории фирм практически не существует надежных внешних рейтингов, которые играют важную роль при оценке корпораций. Нефинансовые данные, такие как кредитная история, связи с другими фирмами, информация о владельцах и акционерах также очень скудные и разрозненные.
В свою очередь отрасль сельского хозяйства имеет свои особенности: ярко выраженная сезонность, сильная зависимость от условий внешней среды, длительный производственный цикл и неэластичность предложения, а также значительные капитальные вложения с долгим сроком окупаемости. Все эти факторы находят отражение в финансовых показателях. Сельскому хозяйству свойственны низкая оборачиваемость капитала и высокая волатильность показателей, характеризующих прибыльность предприятия, а также высокая долговая нагрузка, в связи с чем растет и риск неисполнения обязательств. По оценке Банка России, отрасль сельского хозяйства имеет один из самых высоких показателей доли просроченной задолженности, уступая только строительной и торговой отраслям (Обзор финансовой стабильности, Банк России, 2017).
На этом фоне раннее выявление неблагополучных компаний из числа сельскохозяйственных предприятий малого и среднего бизнеса становится особенно актуальным. Решение этой задачи напрямую зависит от используемых моделей и качества данных. Если раньше для этой цели разрабатывались классические логит- и пробит-модели, то развитие машинного обучения обусловило внедрение новых методов, таких как случайный лес, нейронные сети, метод опорных векторов. Как правило, инновационные модели демонстрируют более высокое качество предсказания.
В своем исследовании я обращаюсь к анализу бухгалтерской отчетности соответствующих фирм, а также учитываю неоднородность предприятий по возрасту, размеру и региону деятельности. Выборка была получена из информационной системы СПАРК и содержит финансовую отчетность 1 407 компаний-банкротов и 15 900 здоровых компаний за 2015-2017 гг. При этом понятие банкротства расширено до факта прекращения деятельности из-за серьезных финансовых трудностей, в том числе путем ликвидации и исключения из ЕГРЮЛ. Проведенный анализ показал, что неблагополучные предприятия малого и среднего бизнеса чаще выбирают указанные методы прекращения деятельности из-за сложности и затратности классической процедуры банкротства.
В моей работе сравниваются два класса аналитических моделей: логистическая регрессия и алгоритм случайного леса. В обоих случаях модель рассчитывает вероятность банкротства в следующем году, на основе чего фирмы делятся на два класса: потенциальные банкроты и здоровые компании. Логистическая регрессия позволила выявить основные зависимости: например, вероятность банкротства оказалась ниже при высоких показателях рентабельности, ликвидности и платежеспособности, тогда как эффект финансового рычага оказался отрицательным (высокая долговая нагрузка повышает вероятность банкротства). Также важным индикатором банкротства является высокая концентрация дебиторской и кредиторской задолженностей. Нефинансовые показатели (возраст, размер, регион деятельности) доказали свою значимость и повысили качество модели.
Алгоритм случайного леса представляет собой совокупность решающих деревьев. В каждом дереве происходит сравнение финансовых показателей с некоторыми пороговыми значениями. В результате объекты выборки разделяются на два класса: потенциальные банкроты и здоровые компании. Этот алгоритм впервые применялся на данных сельскохозяйственной отрасли и показал интересные результаты. По сравнению с моделью логистической регрессии, он демонстрирует более низкую вероятность ошибок первого и второго рода, то есть точнее выделяет как потенциальных банкротов, так и здоровые компании. Таким образом, удалось уменьшить ожидаемые потери от неправильной классификации предприятия.
Несмотря на схожие принципы классификации двух моделей, главным образом основанных на показателях рентабельности и деловой активности, случайный лес превзошел модель логистической регрессии. Это свидетельствует о наличии нелинейных связей между объясняющими переменными и фактом банкротства, а также о применимости моделей машинного обучения к данной задаче.