Найти тему
Николай Лазарев

EDA Исследование объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах

В проекте представлены данные сервиса Яндекс Недвижимость — архив объявлений за несколько лет о продаже квартир в Санкт-Петербурге и соседних населённых пунктах. Исходные данные представлены в файле real_estate_data.csv.

Цель исследования — выполнить предобработку данных и изучить их, чтобы найти интересные особенности и зависимости, которые существуют на рынке недвижимости. В дальнейшем это поможет установить приоритетные параметры для автоматизации систем сервиса, которые помогут определbть рыночную стоимость объекта, отслеживать аномалии и мошенническую деятельность.

О каждой квартире в базе содержится два типа данных: добавленные пользователем и картографические. Например, к первому типу относятся площадь квартиры, её этаж и количество балконов, ко второму — расстояния до центра города, аэропорта и ближайшего парка.

Ход исследования:

1. Загрузка данных
2. Предобработка данных
3. Добавление необходимых вспомогательных слолбцов
4. Проведение исследовательского анализа данных
5. Общий вывод

Построим общую гистограмму для всех столбцов таблицы
Построим общую гистограмму для всех столбцов таблицы

Общий вывод

В проекте исследованы данные сервиса Яндекс Недвижимость — архив объявлений за несколько лет о продаже квартир в Санкт-Петербурге и соседних населённых пунктах.

Выполнена предобработка данных. Проведена оптимизация типов данных. Заполнены пропуски данных там, где это было уместно.

Пропуски высоты потолков и пропуски по высоте здания заменены на медианные значения по каждой локации

Проруски по жилой площади заполнены расчётным значением (произведение среднего % жилой площади на общую площадь квартиры)

Для заполнения пропусков площади кухни, подготовлена вспомогательная таблица со средней пропорцией площади кухни по каждой локации. При умножении на общёю площадь получены необходимые значения.

Пропущенные показатели по принадлежности к апартаментам, по количеству балконов, количество близлежащих парков и прудов, а также локации заполнены явно очевидными значениями False, 0, 0, 0 и unknown соответственно.

Пропускам в поле удаленности до аэропорта присвоены медианные значения для каждого населенного пункта (за исключением Санкт-Петербурга).

Пропуски расстояния до центра заполнены медианными значениями для каждой известной локации.

Осознанно не заполнялись пропуски по столбцам расстояния до парка и пруда, а также по дате размещения объявления.

Для перечня локаций проведен дополнительный анализ и устранены неявные дубликаты в данном поле таблицы. Проведена проверка на явные дубликаты.

Также, в рамках предобработки данных, также устранены некоторые редкие значения (выбросы). Удалены выбросы более 114 кв.м. Несмотря на то, что квартиры и дома свыше 200 и 300 м являются вполне реальными предложениями. Тем не менее подобные выброся могут оказать негативное влияние на расчёт средних значений

В рамках проведенного исследования найдены определенные особенности и зависимости, существующие на рынке недвижимости региона.

-3

Большинство предложений по квартирам общей площадью от 40 до 69 кв.м. Значительное стандартное отклонение 32 кв.м говорит о большом разбросе данных. В целом, распределение по общей площади соответствует классическому распределению Пуассона.

-4

Распределение цены напоминает нормальное Гауссовское распределение с максимумом в районе 3х - 4х млн. рублей. Вместе с тем, более медленное снижение плотности распределения по сравнению с ростом говорит о большем количестве недвижмости премиум сегмента.

-5

В распределении Пуассона по этажности бросается в глаза большое преимущество значений до 5-ти этажей включительно. Что говорит о целом ряде предложений из пятиэтажной застройки. Также прослеживается вторая "ступень значений" от 6 до 9 этажа. Преимущество предложений 5 и 9 этажек подтверждается на диаграмме этажности дома.

-6

Величина стандартного отклонения показывает большой разброс данных по дням продажи. По квартилям можно сделать вывод что относительно быстрой продажей можно считать период от 45 до 95 дней. Менее 45 дней - это очень быстро. Продажи более 230 дней можно считать необычно долгими. Продажи от 95 до 230 дней можно назвать относительно медленным периодом реализации.

-7

На графике зависимости средней цены от общей площади виден минимальный разброс цен для площади до 120 кв.м, средний разброс цен от 120 до 180 кв.м, и максимальный разброс цен для площадей свыше 180 кв.м. Коэффициент корреляции = 0,69, что подтверждает наличие зависимости.

-8

Расчет корреляции показывает незначительную зависимость цены от жилой площади. На графике видна более четкая зависимость для площади от 10 до 60 кв.м. Остальные значения площади более подвержены разбросу по цене

Расчёт коррекляции показывает слабую зависимость цены от площади кухни и полное отсуствие зависимости цены от количества комнат.

-9

Анализ медианных значений показвает наиболее низкую стоимость первых этажей, а также снижение стоимости последних этажей по сравнению с остальными

-10

Коэффициент корреляции показывает отсутствие зависимости цены от месяца подачи объявления. Вместе с тем на графике зависимости прослеживается сезонность. Видны пики повышения стоимости в новогодний период, в апреле, июле. В октябре заметен спад цен.

В рамках исследования рассчитана средняя цена одного квадратного метра в 10 населённых пунктах с наибольшим числом объявлений. Из представленных локаций макимальная средняя стоимость в Санкт-Петербурге, минимальная средняя стоимость в Выборге.

Отдельно для Санкт-Петербурга рассчитана зависимость средней цены от близости к центру города.

-11

При анализе получена очевидная картина снижения средней стоимости недвижимости при удалении от центра. Ярко выражен резкий рост стоимости в самом центре. Вместе с тем, можно отметить снижение стоимости на расстоянии 3х км, и один из пиков стоимости для 6-ти, 7-ми км от центра. Также виден пик роста цен для расстояния 27 км.

Ссылка на код в моём github