Найти в Дзене
Самое простое объяснение подготовки (кодирования) данных для моделей машинного обучения.
Начнем с небольшого экскурса. Чтобы вы понимали суть добавляю небольшой словарик: В целом, это всё что вам следует знать для понимания текста ниже. Чекаем информацию в данных и можем начинать. Сделаем небольшой вывод: В таблице 309864 объекта и 11 признаков, из которых 6 признаков типа object, в признаках нет пропусков, что уже хорошо, но в дальнейшем нам надо будет поработать над таблицей, чтобы все признаки были количественными. ВАЖНО! Я советую делать манипуляции по кодированию после того как вы разбили данные на на выборки...
6 месяцев назад
Готовим таблицу для работы с данными. Изучение и подготовка таблицы.
Здесь мы рассмотрим самые простые способы понимание работы с пропусками и закономерностями в таблицы. Если только начинаешь, то это прям отличный гайд. Весь код будет в конце, используйте с умом. Небольшой словарик (если на опыте, то листай дальше): Тут набор функций я всегда применяю один и тот же: df = pandas.read_csv("путь_к_файлу") - Применяем для записи таблицы в переменную (по ссылке отдельная статья про эту функцию. df.head() - смотрим 5 первых строк в таблице df.info() - смотрим краткую информацию о таблицы df...
6 месяцев назад
Как убить пропуски в данных: анализ, обработка, результат
Я не любитель читать статьи, где много рассуждают о том почему эта статья существует и как она появилась на свет. Поэтому просто перейду к делу. У нас есть проблема: Пропуски (пустоты) в данных. Нам надо понять, что с ними делать и как справляться. Я разложил эту статью на 4 раздела: У кого не спроси, все специалисты знают, что пропуски делятся на 3 типа, надо выяснить, к какому именно типу относиться пропуск, если сделали, то это уже пол дела: 1. MCAR (Missing Completely At Random) - в рандомный момент появился пропуск, он ни от чего не зависит...
6 месяцев назад
Использование метода .read_csv библиотеки Pandas.
Метод read_csv() в библиотеке Pandas — это один из самых популярных инструментов для загрузки данных из CSV-файлов в DataFrame. Он обладает множеством параметров, позволяющих гибко настраивать процесс чтения данных. Я не буду тут делать большие объяснение, возьму чистую базу и расскажу то, что вам хватит для использования в метода. import pandas as pd #Импортирование библиотеки df = pd.read_csv('data.csv') # Загрузка CSV-файла в DataFrame print(df.head()) # Вывод первых 5 строк Примечание: # Абсолютный путь для Windows data_win = pd...
9 месяцев назад
Гид для начинающих: Python как инструмент, первые шаги в анализе данных и ресурсы для обучения
Всем доброго дня! Это моя первая статья и я решил, что она будет вводной, без каких-то конкретных объяснений и максимально по делу. Начнем Python — один из лучших языков для старта в анализе данных. Он прост в изучении, универсален и поддерживается огромным сообществом. В этом руководстве — понятный пошаговый план для новичков: как начать работать с Python, какие библиотеки использовать и где учиться. Преимущества Python для анализа данных: ✔ Простота синтаксиса – код читается почти как обычный текст...
9 месяцев назад