Источник: Nuances of Programming Pandas — библиотека, которая не нуждается в представлении, если речь идёт о работе с данными. Она привносит высокую производительность, структурирование данных и удобную работу с ними. Однако при работе со значительно большим количеством данных, например, на одноядерном процессоре, работа библиотеки замедляется. Для сохранения производительности понадобится использование распределённых систем. Ещё один способ повысить производительность заключается в увеличении крутизны кривой обучения...
Как правило, наибольшего успеха добивается тот, кто располагает лучшей информацией (Бенджамин Дизраэли). Рассмотрим, предпочтительный способ выборки колонок датафрейма по типам. Для начала сгенерируем демонстрационный набор данных: В датасете представлены разные типы колонок: Рассмотрим, как корректно выбрать колонки заданных типов с помощью метода select_dtypes, который в аргументах include/exclude принимает список типов колонок для отбора/фильтрации и возвращает датафрейм. Целый тип Его выборка производится по строке integer (или np...