Предыдущий урок: Урок 3. Данные — топливо машинного обучения
Мы уже научились работать с данными, загружать их, смотреть, что внутри, находить странности и визуализировать закономерности. Это был важный шаг: без понимания данных машинное обучение — пустой звук. Но теперь пора перейти к тому, ради чего мы сюда пришли: к обучению модели, которая сможет предсказывать.
Сегодня мы построим нашу первую модель — линейную регрессию. Это самый простой, но невероятно важный алгоритм, с которого начинают почти все специалисты в машинном обучении. Не важно, насколько большие и сложные модели появятся позже — понимание линейной регрессии остаётся фундаментом.
Мы разберёмся, что она делает, почему это работает, где применяется в реальной жизни, и конечно — напишем полноценную программу на Python, которая построит модель, покажет линию, сделает прогноз и объяснит, что произошло.
🎁 Кстати, мы отмечаем 1000 подписчиков на канале и дарим вам скидку 50% на курс по System Design. Промокод: IT_EXTRA1000
Что такое линейная регрессия, если объяснить по-человечески
Представь, что ты стоишь на поле, вокруг тебя — россыпь камней. Каждый камень — это точка данных: например, площадь квартиры и её цена. Ты хочешь провести через эти камни ровную линию, которая проходит “как можно ближе” ко всем точкам, чтобы увидеть общую тенденцию: чем больше площадь квартиры — тем выше ее цена.
Линейная регрессия занимается ровно этим: она ищет такую линию, которая описывает зависимость между числовыми величинами. Если говорить простыми словами: Линейная регрессия — это алгоритм, который ищет прямую, показывающую, как связаны два (или больше) числовых признака.
Это может звучать слишком просто, но сила линейной регрессии в том, что она:
- легко интерпретируется (можно понять, что влияет на что);
- работает даже на небольших данных;
- является основой многих других алгоритмов;
- используется во всех сферах — от экономики до медицины.
- И главное — она идеальна для того, чтобы понять саму идею «модель учится по данным».
Где в реальной жизни используется линейная регрессия
Линейная регрессия присутствует в огромном количестве сфер:
- Экономика: прогноз цен, доходов, спроса, продаж.
- Медицина: зависимость симптомов от результата лечения.
- Маркетинг: как рекламный бюджет влияет на количество заявок.
- Спорт: как количество тренировок влияет на скорость бега.
- Личная жизнь: сколько кофе ты выпил и насколько бодр ты сегодня 😄
Везде, где нужно понять “как одно число влияет на другое”, там работает линейная регрессия.
В уроке 2 мы уже строили график зависимости цены квартиры от площади. Это была просто визуализация. Теперь мы сделаем так, чтобы компьютер сам нашёл линию зависимости.
Создадим данные:
Каждый элемент в X — площадь, каждый элемент в y — цена. Теперь мы можем обучить модель.
Обучение модели: всего два шага
В библиотеке scikit-learn обучение модели делается буквально в несколько строчек.
Создадим модель и обучим её:
И вот всё — модель обучена. То есть на самом деле компьютер уже “понял”, как площадь влияет на цену.
Делаем прогноз
Проверим, насколько модель готова к реальному применению. Например, сколько будет стоить квартира 55 м²?
Примерный вывод:
И это действительно соответствует визуальному тренду. Модель смогла сделать прогноз — это уже маленькое волшебство.
Рисуем линию, найденную моделью
Для глубинного понимания важно «увидеть», как модель думает. Построим линию:
Перед тобой появится график: синие точки — реальные данные, красная линия — то, как модель видит зависимость. Если линия аккуратно проходит между точками, значит модель «поняла» данные правильно.
А что внутри модели? (без формул)
Модель хранит два параметра:
- наклон — показывает, насколько цена квартиры растёт с увеличением ее площади;
- пересечение — начальная точка линии.
Посмотрим на них:
Результат:
Зачем это нужно? Да потому что эти параметры — расшифровка смысла модели.
Например, если наклон равен 0.077, это означает: каждый дополнительный квадратный метр увеличивает цену примерно на 0.077 млн. Вот почему линейная регрессия понятна и полезна: она не просто предсказывает — она объясняет.
Что если данные не идеально прямолинейны?
В реальной жизни данные почти никогда не выстраиваются в идеальную линию. Что тогда? Модель всё равно найдёт “лучшую возможную” линию.
Ошибки будут, но они покажут, насколько сильно данные отклоняются от тренда. Иногда этого достаточно, чтобы сделать полезные выводы. Если данные имеют нелинейный характер — это нормально. Позже мы изучим методы, которые справляются и с такими задачами: деревья решений, случайные леса и т. д. Но сначала нужно понять базовый принцип.
Проверяем качество модели
Это пока не требует сложных метрик. Сделаем простую проверку: посмотрим, насколько хорошо линия “лежит” на точках.
Сравни значения глазами — если предсказания близки к реальным, всё хорошо.
Пока этого достаточно. Более точные метрики мы изучим позже.
Что дальше?
Мы научились строить первую модель. Но это только начало. На следующем уроке мы разберём классификацию — ещё один важнейший тип задач машинного обучения. Ты узнаешь:
- чем классификация отличается от регрессии,
- как компьютер “учится различать”,
- что такое KNN (k ближайших соседей),
- как оценивать качество классификации.
Будет много интересного — и много практики.
Следующий урок: Урок 5. Классификация — учим компьютер различать объекты. Первая модель KNN
👍 Ставьте лайки если хотите разбор других интересных тем.
👉 Подписывайся на IT Extra на Дзен чтобы не пропустить следующие статьи
Если вам интересно копать глубже, разбирать реальные кейсы и получать знания, которых нет в открытом доступе — вам в IT Extra Premium.
Что внутри?
✅ Закрытые публикации: Детальные руководства, разборы сложных тем (например, архитектура высоконагруженных систем, глубокий анализ уязвимостей, оптимизация кода, полезные инструменты и объяснения сложных тем простым и понятным языком).
✅ Конкретные инструкции: Пошаговые мануалы, которые вы сможете применить на практике уже сегодня.
✅ Без рекламы и воды: Только суть, только концентрат полезной информации.
✅ Ранний доступ: Читайте новые материалы первыми.
Это — ваш личный доступ к экспертизе, упакованной в понятный формат. Не просто теория, а инструменты для роста.
👉 Переходите на Premium и начните читать то, о чем другие только догадываются.
👇
Понравилась статья? В нашем Telegram-канале ITextra мы каждый день делимся такими же понятными объяснениями, а также свежими новостями и полезными инструментами. Подписывайтесь, чтобы прокачивать свои IT-знания всего за 2 минуты в день!