В данной статье рассмотрим применение автоматического сбора и анализа данных для аналитики рынка недвижимости на примере рынка жилья Лондона в период пандемии коронавируса.
Кстати, а если вы хотите сделать что-то подобное, то мы в Авада-Лаб занимаемся парсингом, аналитикой данных, а еще мониторингом цен, публикаций, сбором баз данных и пр.
1. Введение и постановка проблемы
Официальная статистика рынка жилья публикуется с существенной задержкой (например, данные UK Land Registry — через 2 месяца после окончания отчётного месяца) и часто представлена в агрегированном виде, что маскирует региональные различия. В условиях резких экономических потрясений, таких как пандемия COVID-19, такая задержка не позволяет оперативно оценивать состояние рынка.
Одновременно с этим 92% риелторских агентств Великобритании размещают объявления в интернете, формируя огромный массив общедоступных данных в реальном времени.
Цель исследования: Использовать парсинг данных для построения высокочастотных и детализированных индикаторов рынка жилья, отражающих перспективу продавцов, и проанализировать с их помощью влияние пандемии COVID-19 на рынок недвижимости Великобритании.
2. Методология сбора и обработки данных
Источники данных
Основные сайты: Zoopla, Rightmove, OnTheMarket
Региональные специализированные: PropertyPal (Северная Ирландия), S1Homes (Шотландия)
Объёмы данных: В среднем 1.5 миллиона объявлений в день (из них ~2/3 — на продажу)
Информация в объявлениях: Цена, местоположение (вплоть до почтового индекса), площадь, число комнат, тип жилья, описание
Очистка данных
Гармонизация единиц измерения (перевод площади в м², еженедельной аренды — в месячную)
Фильтрация: Удаление нерезиденциальных объектов (гаражи, земля), аукционных лотов (резервная цена ≠ цена продажи)
Устранение дубликатов (для существующего жилья)
Винзоризация (отсечение 1% экстремальных значений) для сглаживания выбросов
Текстовый анализ описаний для выявления дополнительных удобств (парковка, балкон)
Ключевое концептуальное отличие: Данные отражают цену запроса продавца, а не цену сделки, как официальная статистика. Поэтому они являются дополнением, а не заменой официальных данных.
3. Инновационные индикаторы на основе данных парсинга
На основе собранных данных были построены следующие показатели:
1. Количество новых объявлений в неделю
Отражает готовность продавцов выходить на рынок. Резкое падение — сигнал о «замораживании» рынка.
2. Динамика изменения цены в существующих объявлениях
Показывает, как продавцы корректируют свои ожидания. Доля объявлений с изменением цены и направление изменений (вверх/вниз) — ранний индикатор смены тренда.
3. Маржа переговоров покупателя
Главная инновация статьи. Рассчитывается путём сопоставления данных парсинга (цена запроса) с нотариальными данными Land Registry (цена сделки) с использованием алгоритма K-Nearest Neighbours (KNN).
M = (SellingPrice - TransactionPrice) / SellingPrice
Позволяет измерить, насколько покупателям удаётся сбить цену в разных регионах.
4. Коэффициент цена/аренда
Рассчитывается в реальном времени на очень детальном уровне (почтовый индекс) путём сопоставления объявлений об аренде и продаже со схожими характеристиками с использованием того же KNN-алгоритма.
4. Анализ рынка во время кризиса COVID-19
4.1. Реакция рынка на локдаун
Как видно из Рисунка 1, количество новых объявлений упало на ~80% в период первого локдауна, что показало резкое сокращение активности.
Из Рисунка 2 видно, что продавцы заняли выжидательную позицию. Доля объявлений с изменением цены снизилась, даже для объектов, долго находившихся на рынке. Это говорит о стратегии «wait-and-see».
4.2. Динамика цен и региональные различия
На национальном уровне средняя цена запроса незначительно снизилась с конца февраля до начала мая 2020, после чего начался устойчивый рост.
На Рисунке 6 видно ключевое региональное расхождение. В то время как в сельских регионах (Восточная, Юго-Восточная, Юго-Западная Англия) цены росли после локдауна, в Лондоне наблюдалась продолжающаяся тенденция к снижению.
4.3. Переговорная маржа и «цена/аренда»
Из Рисунка 3 видно, что переговорная маржа покупателей в Лондоне наименьшая по стране (около -2.5%). В других регионах (например, Северо-Западная Англия) покупатели могут добиться большего снижения цены (маржа до -5%).
Рисунок 4 показывает, что Лондон выделяется аномально низким коэффициентом цена/аренда (~3.5%), что может указывать на переоценённость рынка покупки жилья или на более низкий риск и, как следствие, требуемую доходность.
5. Выводы и значение исследования
Технический вклад
Исследование демонстрирует возможность построения высокочастотных (ежедневных), высокодетализированных (уровень почтового индекса) и своевременных индикаторов рынка жилья путём парсинга общедоступных данных.
Концептуальный вклад
Данные отражают перспективу продавца, что является уникальным дополнением к официальной статистике, основанной на сделках. Это позволяет измерять ранее недоступные параметры, такие как маржа переговоров.
Прикладные выводы для периода COVID-19
Ограничения
- Короткий временной ряд (данные с марта 2020), что затрудняет сезонную корректировку и проверку прогнозной силы индикаторов.
- Географический охват (Великобритания), хотя методология применима и в других странах.
- Данные отражают предложение (объявления), а не реализованный спрос (сделки).
Перспективы
Методология открывает пути для:
- Мониторинга рынка коммерческой недвижимости.
- Сверхкраткосрочного прогнозирования цен на жильё.
- Анализа рынка земли и строительного сектора.
Оригинальная статья: Bricongne, J.-C., Meunier, B., & Pouget, S. (2021). Web Scraping Housing Prices in Real-time: the Covid-19 Crisis in the UK. Banque de France Working Paper, No. 827.