4 года назад
Ускоряем работу с pandas при помощи modin
Источник: Nuances of Programming Pandas — библиотека, которая не нуждается в представлении, если речь идёт о работе с данными. Она привносит высокую производительность, структурирование данных и удобную работу с ними. Однако при работе со значительно большим количеством данных, например, на одноядерном процессоре, работа библиотеки замедляется. Для сохранения производительности понадобится использование распределённых систем. Ещё один способ повысить производительность заключается в увеличении крутизны кривой обучения...
Выборка колонок датафрейма по типам
Как правило, наибольшего успеха добивается тот, кто располагает лучшей информацией (Бенджамин Дизраэли). Рассмотрим, предпочтительный способ выборки колонок датафрейма по типам. Для начала сгенерируем демонстрационный набор данных: В датасете представлены разные типы колонок: Рассмотрим, как корректно выбрать колонки заданных типов с помощью метода select_dtypes, который в аргументах include/exclude принимает список типов колонок для отбора/фильтрации и возвращает датафрейм. Целый тип Его выборка производится по строке integer (или np...