Data Science Lab | Анализ Данных & ML

подписчик

📊 Статьи и обучение по Data Science, ML и статистике 🐍 Python | 🤖 Нейросети | 📈 Визуализация данных 🚀 От теории к практике — просто и понятно #DataScience #MachineLearning #АнализДанных

Лента материалов Статьи

12 месяцев назад

• Вы подписаны

Самое простое объяснение подготовки (кодирования) данных для моделей машинного обучения.

Начнем с небольшого экскурса. Чтобы вы понимали суть добавляю небольшой словарик: В целом, это всё что вам следует знать для понимания текста ниже. Чекаем информацию в данных и можем начинать. Сделаем небольшой вывод: В таблице 309864 объекта и 11 признаков, из которых 6 признаков типа object, в признаках нет пропусков, что уже хорошо, но в дальнейшем нам надо будет поработать над таблицей, чтобы все признаки были количественными. ВАЖНО! Я советую делать манипуляции по кодированию после того как вы разбили данные на на выборки...

1 год назад

• Вы подписаны

Готовим данные для анализа. Первый этап перед предобработкой.

Здесь мы рассмотрим самые простые способы понимание работы с пропусками и закономерностями в таблицы. Если только начинаешь, то это прям отличный гайд. Весь код будет в конце, используйте с умом. Небольшой словарик (если на опыте, то листай дальше): Тут набор функций я всегда применяю один и тот же: df = pandas.read_csv("путь_к_файлу") - Применяем для записи таблицы в переменную (по ссылке отдельная статья про эту функцию. df.head() - смотрим 5 первых строк в таблице df.info() - смотрим краткую информацию о таблицы df...

1 год назад

• Вы подписаны

Как убить пропуски в данных: анализ, обработка, результат

Я не любитель читать статьи, где много рассуждают о том почему эта статья существует и как она появилась на свет. Поэтому просто перейду к делу. У нас есть проблема: Пропуски (пустоты) в данных. Нам надо понять, что с ними делать и как справляться. Я разложил эту статью на 4 раздела: У кого не спроси, все специалисты знают, что пропуски делятся на 3 типа, надо выяснить, к какому именно типу относиться пропуск, если сделали, то это уже пол дела: 1. MCAR (Missing Completely At Random) - в рандомный момент появился пропуск, он ни от чего не зависит...

1 год назад

• Вы подписаны

Использование метода .read_csv библиотеки Pandas.

Метод read_csv() в библиотеке Pandas — это один из самых популярных инструментов для загрузки данных из CSV-файлов в DataFrame. Он обладает множеством параметров, позволяющих гибко настраивать процесс чтения данных. Я не буду тут делать большие объяснение, возьму чистую базу и расскажу то, что вам хватит для использования в метода. import pandas as pd #Импортирование библиотеки df = pd.read_csv('data.csv') # Загрузка CSV-файла в DataFrame print(df.head()) # Вывод первых 5 строк Примечание: # Абсолютный путь для Windows data_win = pd...

1 год назад

• Вы подписаны

Гид для начинающих: Python как инструмент, первые шаги в анализе данных и ресурсы для обучения

Всем доброго дня! Это моя первая статья и я решил, что она будет вводной, без каких-то конкретных объяснений и максимально по делу. Начнем Python — один из лучших языков для старта в анализе данных. Он прост в изучении, универсален и поддерживается огромным сообществом. В этом руководстве — понятный пошаговый план для новичков: как начать работать с Python, какие библиотеки использовать и где учиться. Преимущества Python для анализа данных: ✔ Простота синтаксиса – код читается почти как обычный текст...

Покупайте СтеллыИ дарите их за контент