Хирьянов Т.Ф. - Основы программирования и анализа данных на Python - 9. Библиотеки NumPy и Pandas
🖥 balance: a python package for balancing biased data samples Пакет balance python - это удобный инструмент для работы со смещенными выборками данных. Обеспечивает полный рабочий процесс: анализа смещений в данных, получения весов для балансировки данных, оценки качества весов и получения взвешенных оценок. python -m pip install git+https://github.com/bbalasub1/glmnet_python.git@1.0 Мы начинаем с загрузки данных и их корректировки: from balance import load_data, Sample # load simulated example data target_df, sample_df = load_data() # Import sample and target data into a Sample object sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) # Set the target to be the target of sample sample_with_target = sample.set_target(target) # Check basic diagnostics of sample vs target before adjusting: # sample_with_target.covars().plot() # Using ipw to fit survey weights adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3%, design effect: 2.249 # Covar ASMD (7 variables):0.335 -> 0.126 # Model performance: Model proportion deviance explained: 0.174 adjusted.covars().plot(library = "seaborn", dist_type = "kde") ▪Github ▪Примеры с кодом ▪Статья ▪Проект @machinelearning
Простой и удобный счетчик на Python
Рассмотрим удобный инструмент быстрого подсчета статистики встречаемости объектов в наборе данных, не требующий использование специализированных научных библиотек. Это класс Counter из модуля collections: Техника работы с ним заключается в добавлении наборов данных, после чего сразу становится доступна статистика: Очистить экземпляр класса от содержимого можно его методом clear: В качестве источников данных в Counter-е могут выступать не только списки, но и...