Найти в Дзене
IT Еxtra

Урок 3. Данные — топливо машинного обучения

Если в прошлых уроках мы познакомились с идеей машинного обучения и установили все нужные инструменты (Урок 1. Что такое машинное обучение и зачем оно нужно и Урок 2. Настраиваем инструменты и обучаем первую модель), то теперь пришло время заняться самым важным — данными. Можно придумать гениальный алгоритм, написать безупречный код, но если данные плохие — модель ничего не научится. Говорят: «Данные — это новая нефть». Но как и с нефтью, чтобы извлечь из них пользу, их нужно добыть, очистить и переработать. Сегодня мы разберёмся, что такое данные в машинном обучении, как они устроены, где их брать, и как научить Python работать с ними. А ещё напишем программу, которая загрузит настоящий набор данных и покажет, как он выглядит изнутри. 🎁 Кстати, мы отмечаем 1000 подписчиков на канале и дарим вам скидку 50% на курс по System Design. Промокод: IT_EXTRA1000 Что такое данные для модели Для машины данные — это способ понять наш мир. Если ты показываешь алгоритму фотографии кошек и собак,
Оглавление

Если в прошлых уроках мы познакомились с идеей машинного обучения и установили все нужные инструменты (Урок 1. Что такое машинное обучение и зачем оно нужно и Урок 2. Настраиваем инструменты и обучаем первую модель), то теперь пришло время заняться самым важным — данными.

Можно придумать гениальный алгоритм, написать безупречный код, но если данные плохие — модель ничего не научится. Говорят: «Данные — это новая нефть». Но как и с нефтью, чтобы извлечь из них пользу, их нужно добыть, очистить и переработать. Сегодня мы разберёмся, что такое данные в машинном обучении, как они устроены, где их брать, и как научить Python работать с ними.

А ещё напишем программу, которая загрузит настоящий набор данных и покажет, как он выглядит изнутри.

🎁 Кстати, мы отмечаем 1000 подписчиков на канале и дарим вам скидку 50% на курс по System Design. Промокод: IT_EXTRA1000

Что такое данные для модели

Для машины данные — это способ понять наш мир. Если ты показываешь алгоритму фотографии кошек и собак, то данные — это сами картинки и подписи к ним (“кошка”, “собака”).

Если мы учим модель предсказывать цену квартиры, то данные — это таблица, где каждая строка — квартира, а столбцы — её характеристики (площадь, этаж, район, цена). Можно сказать, что данные — это история, рассказанная в числах. Чем чище и понятнее эта история, тем легче модели её “прочитать”.

Знакомимся с библиотекой pandas

Чтобы работать с таблицами данных, в Python есть библиотека pandas. Её придумали специально для того, чтобы можно было обращаться с таблицами почти так же просто, как в Excel — но с мощью кода.

Давай создадим маленькую таблицу прямо в коде:

-2

Результат в консоли:

-3

Поздравляю — ты только что создал свой первый DataFrame, главный объект в pandas. Это как электронная таблица, только с возможностью анализировать данные программно.

-4

Как устроены данные

Каждая таблица в машинном обучении состоит из:

  • строк — примеров (или наблюдений);
  • столбцов — признаков (характеристик, по которым модель делает выводы).

Например, если у нас 100 квартир, каждая строка — отдельная квартира, а столбцы — площадь, этаж, район и цена.

Цена — это целевая переменная (то, что мы хотим предсказать), а остальные — признаки (то, на основании чего учится модель).

IT Extra

Загружаем настоящий набор данных

Теперь поработаем с реальными цифрами. Для примера возьмем знаменитый набор данных Iris — он содержит измерения лепестков и чашелистиков трёх видов ирисов (цветов). Это классический пример для обучения. Библиотека scikit-learn умеет загружать его автоматически:

-5

После запуска ты увидишь первые пять строк с измерениями цветов и их видами.

-6

Это уже настоящие данные, с которыми работают модели машинного обучения.

https://www.codersarts.com/post/machine-learning-iris-classification
https://www.codersarts.com/post/machine-learning-iris-classification

Разбираем данные шаг за шагом

Иногда данные бывают огромными — сотни тысяч строк и десятки столбцов. Чтобы с ними справляться, pandas предлагает удобные методы. Попробуй следующие команды:

-8
  • .shape покажет количество строк и столбцов,
  • .info() расскажет, какие типы данных в каждом столбце,
  • .describe() выведет базовую статистику — средние, минимальные и максимальные значения.

Так можно быстро получить «ощущение» данных: есть ли пропуски, насколько они сбалансированы, нет ли странных выбросов.

-9

Проверяем пропуски и выбросы

Иногда в данных встречаются пропуски — ячейки без значений. Это может быть результат ошибки при сборе данных или просто отсутствие информации. Модели не любят пустоты — их нужно обработать.

-10

Если все значения равны нулю — всё отлично. Если нет — нужно решить, что делать: удалить эти строки или заполнить средним значением.

Визуализируем данные

Лучший способ понять данные — увидеть их. Даже простая визуализация может сказать больше, чем сотня чисел.

-11

На графике ты увидишь три облака точек — по числу видов цветов.

-12

Даже без модели видно, что по длине и ширине лепестков можно различать виды. Именно это и будет делать алгоритм — находить границы между группами точек.

Почему подготовка данных — это 80% работы

Почти все, кто занимается машинным обучением, сходятся в одном: чистка и подготовка данных занимают большую часть времени проекта.

Пока данные не аккуратны — нет смысла строить модели. Ошибки в таблице приводят к ложным выводам, а выбросы могут «сбить» модель с толку.

Простой пример: если в таблицу цен квартир случайно попадёт одна запись, где квартира стоит 100 миллионов вместо 10 — модель подумает, что чем выше этаж, тем ближе к небу и к богатству. Поэтому важно проверять данные глазами и доверять им только после проверки.

-13

Что мы узнали сегодня

Данные — это основа любой модели. Без них машинное обучение невозможно. pandas помогает удобно работать с таблицами.

Мы научились загружать реальные данные, смотреть статистику, искать пропуски и визуализировать зависимости. Поняли, что подготовка данных — это важнейший этап перед обучением.

Теперь у нас есть фундамент, на котором можно строить настоящие модели.

Что дальше

На следующем уроке мы построим настоящую обучающую модель. Ты узнаешь, как из данных извлекаются зависимости, и напишешь первую “умную” программу, которая делает предсказания.

Мы подробно разберём, как работает линейная регрессия — простейший, но очень мощный алгоритм.

Следующий урок: Урок 4. Наша первая модель — линейная регрессия. Объясняем без формул и магии

👍 Ставьте лайки если хотите разбор других интересных тем.

👉 Подписывайся на IT Extra на Дзен чтобы не пропустить следующие статьи

Если вам интересно копать глубже, разбирать реальные кейсы и получать знания, которых нет в открытом доступе — вам в IT Extra Premium.

Что внутри?
Закрытые публикации: Детальные руководства, разборы сложных тем (например, архитектура высоконагруженных систем, глубокий анализ уязвимостей, оптимизация кода, полезные инструменты и объяснения сложных тем простым и понятным языком).
Конкретные инструкции: Пошаговые мануалы, которые вы сможете применить на практике уже сегодня.
Без рекламы и воды: Только суть, только концентрат полезной информации.
Ранний доступ: Читайте новые материалы первыми.

Это — ваш личный доступ к экспертизе, упакованной в понятный формат. Не просто теория, а инструменты для роста.

👉 Переходите на Premium и начните читать то, о чем другие только догадываются.

👇
Понравилась статья? В нашем Telegram-канале ITextra мы каждый день делимся такими же понятными объяснениями, а также свежими новостями и полезными инструментами. Подписывайтесь, чтобы прокачивать свои IT-знания всего за 2 минуты в день!

IT Extra