228 читали · 3 года назад
Предобработка данных. Нормализация данных. Python.
Часто данные в датасетах бывают разного масштаба, что очень мешает алгоритмам хорошо работать. В большинстве случаев прибегают к нормализации данных - приведению данных к одному масштабу. Основные методы: Два этих метода есть в библиотеке sklearn. MinMaxScaler - приводит независимо каждый признак к значению между 0 и 1. Для каждого признака мы находим минимальное и максимальное значение, из всех значений вычитаем минимальное значение и делим это на разницу между максимальным и минимальным значениями...
1979 читали · 2 года назад
5 крутых способов сортировки данных в Python с помощью Pandas
В этой статье представлены 5 способ сортировки данных с помощью библиотеки Pandas. Большие активы данных часто бывают запутаны, особенно когда вам приходится извлекать их с веб-сайтов, серверов или других источников данных. Приложения на основе пользовательского интерфейса, такие как MS Excel, хороши для работы с простыми наборами данных, но могут возникнуть проблемы, когда объем данных становится больше. Это хорошая причина для перехода на Python для выполнения более сложных операций с данными...