Если в прошлых уроках мы познакомились с идеей машинного обучения и установили все нужные инструменты (Урок 1. Что такое машинное обучение и зачем оно нужно и Урок 2. Настраиваем инструменты и обучаем первую модель), то теперь пришло время заняться самым важным — данными.
Можно придумать гениальный алгоритм, написать безупречный код, но если данные плохие — модель ничего не научится. Говорят: «Данные — это новая нефть». Но как и с нефтью, чтобы извлечь из них пользу, их нужно добыть, очистить и переработать. Сегодня мы разберёмся, что такое данные в машинном обучении, как они устроены, где их брать, и как научить Python работать с ними.
А ещё напишем программу, которая загрузит настоящий набор данных и покажет, как он выглядит изнутри.
🎁 Кстати, мы отмечаем 1000 подписчиков на канале и дарим вам скидку 50% на курс по System Design. Промокод: IT_EXTRA1000
Что такое данные для модели
Для машины данные — это способ понять наш мир. Если ты показываешь алгоритму фотографии кошек и собак, то данные — это сами картинки и подписи к ним (“кошка”, “собака”).
Если мы учим модель предсказывать цену квартиры, то данные — это таблица, где каждая строка — квартира, а столбцы — её характеристики (площадь, этаж, район, цена). Можно сказать, что данные — это история, рассказанная в числах. Чем чище и понятнее эта история, тем легче модели её “прочитать”.
Знакомимся с библиотекой pandas
Чтобы работать с таблицами данных, в Python есть библиотека pandas. Её придумали специально для того, чтобы можно было обращаться с таблицами почти так же просто, как в Excel — но с мощью кода.
Давай создадим маленькую таблицу прямо в коде:
Результат в консоли:
Поздравляю — ты только что создал свой первый DataFrame, главный объект в pandas. Это как электронная таблица, только с возможностью анализировать данные программно.
Как устроены данные
Каждая таблица в машинном обучении состоит из:
- строк — примеров (или наблюдений);
- столбцов — признаков (характеристик, по которым модель делает выводы).
Например, если у нас 100 квартир, каждая строка — отдельная квартира, а столбцы — площадь, этаж, район и цена.
Цена — это целевая переменная (то, что мы хотим предсказать), а остальные — признаки (то, на основании чего учится модель).
Загружаем настоящий набор данных
Теперь поработаем с реальными цифрами. Для примера возьмем знаменитый набор данных Iris — он содержит измерения лепестков и чашелистиков трёх видов ирисов (цветов). Это классический пример для обучения. Библиотека scikit-learn умеет загружать его автоматически:
После запуска ты увидишь первые пять строк с измерениями цветов и их видами.
Это уже настоящие данные, с которыми работают модели машинного обучения.
Разбираем данные шаг за шагом
Иногда данные бывают огромными — сотни тысяч строк и десятки столбцов. Чтобы с ними справляться, pandas предлагает удобные методы. Попробуй следующие команды:
- .shape покажет количество строк и столбцов,
- .info() расскажет, какие типы данных в каждом столбце,
- .describe() выведет базовую статистику — средние, минимальные и максимальные значения.
Так можно быстро получить «ощущение» данных: есть ли пропуски, насколько они сбалансированы, нет ли странных выбросов.
Проверяем пропуски и выбросы
Иногда в данных встречаются пропуски — ячейки без значений. Это может быть результат ошибки при сборе данных или просто отсутствие информации. Модели не любят пустоты — их нужно обработать.
Если все значения равны нулю — всё отлично. Если нет — нужно решить, что делать: удалить эти строки или заполнить средним значением.
Визуализируем данные
Лучший способ понять данные — увидеть их. Даже простая визуализация может сказать больше, чем сотня чисел.
На графике ты увидишь три облака точек — по числу видов цветов.
Даже без модели видно, что по длине и ширине лепестков можно различать виды. Именно это и будет делать алгоритм — находить границы между группами точек.
Почему подготовка данных — это 80% работы
Почти все, кто занимается машинным обучением, сходятся в одном: чистка и подготовка данных занимают большую часть времени проекта.
Пока данные не аккуратны — нет смысла строить модели. Ошибки в таблице приводят к ложным выводам, а выбросы могут «сбить» модель с толку.
Простой пример: если в таблицу цен квартир случайно попадёт одна запись, где квартира стоит 100 миллионов вместо 10 — модель подумает, что чем выше этаж, тем ближе к небу и к богатству. Поэтому важно проверять данные глазами и доверять им только после проверки.
Что мы узнали сегодня
Данные — это основа любой модели. Без них машинное обучение невозможно. pandas помогает удобно работать с таблицами.
Мы научились загружать реальные данные, смотреть статистику, искать пропуски и визуализировать зависимости. Поняли, что подготовка данных — это важнейший этап перед обучением.
Теперь у нас есть фундамент, на котором можно строить настоящие модели.
Что дальше
На следующем уроке мы построим настоящую обучающую модель. Ты узнаешь, как из данных извлекаются зависимости, и напишешь первую “умную” программу, которая делает предсказания.
Мы подробно разберём, как работает линейная регрессия — простейший, но очень мощный алгоритм.
Следующий урок: Урок 4. Наша первая модель — линейная регрессия. Объясняем без формул и магии
👍 Ставьте лайки если хотите разбор других интересных тем.
👉 Подписывайся на IT Extra на Дзен чтобы не пропустить следующие статьи
Если вам интересно копать глубже, разбирать реальные кейсы и получать знания, которых нет в открытом доступе — вам в IT Extra Premium.
Что внутри?
✅ Закрытые публикации: Детальные руководства, разборы сложных тем (например, архитектура высоконагруженных систем, глубокий анализ уязвимостей, оптимизация кода, полезные инструменты и объяснения сложных тем простым и понятным языком).
✅ Конкретные инструкции: Пошаговые мануалы, которые вы сможете применить на практике уже сегодня.
✅ Без рекламы и воды: Только суть, только концентрат полезной информации.
✅ Ранний доступ: Читайте новые материалы первыми.
Это — ваш личный доступ к экспертизе, упакованной в понятный формат. Не просто теория, а инструменты для роста.
👉 Переходите на Premium и начните читать то, о чем другие только догадываются.
👇
Понравилась статья? В нашем Telegram-канале ITextra мы каждый день делимся такими же понятными объяснениями, а также свежими новостями и полезными инструментами. Подписывайтесь, чтобы прокачивать свои IT-знания всего за 2 минуты в день!