341 читали · 4 года назад
Предобработка данных. Нормализация данных. Python.
Часто данные в датасетах бывают разного масштаба, что очень мешает алгоритмам хорошо работать. В большинстве случаев прибегают к нормализации данных - приведению данных к одному масштабу. Основные методы: Два этих метода есть в библиотеке sklearn. MinMaxScaler - приводит независимо каждый признак к значению между 0 и 1. Для каждого признака мы находим минимальное и максимальное значение, из всех значений вычитаем минимальное значение и делим это на разницу между максимальным и минимальным значениями...
1 год назад
Практические советы по очистке данных на Python.
Перед началом анализа данных важно провести их очистку и подготовку. Это поможет избежать ошибок и повысить точность результатов анализа. В Python есть множество инструментов для эффективной работы с данными. Рассмотрим основные шаги для их подготовки. 1. Работа с пропусками в данных Пропуски данных часто встречаются в наборах данных и могут привести к искажениям в анализе. Чтобы обнаружить пропущенные значения, можно использовать метод isnull(), который возвращает True для ячеек с пропусками....
1 год назад
Python + Rust с tract
t.me/oneRustnoqRust Обучить модель ML для предсказаний параметров. Найти альтернативы нормализации в Rust и в Python (Разные mean/scale) . Что происходит на самом деле: → Загрузка Iris → Разделение → Нормализация → Обучение MLP → Конвертация в ONNX → Сохранение трёх файлов. mlp.onnx, test_data.csv, scaler_params.pkl → в папку проекта Rust → Чтение параметров нормализации → Загрузка и оптимизация ONNX-модели → Чтение тестовых примеров → Параллельно для каждого примера: • Извлечение признаков • Нормализация (точно такая же, как в Python) • Создание тензора • Выполнение модели • argmax по выходным...