Найти тему
Николай Лазарев

ML проект. Выбор локации для скважины

Оглавление

Описание проекта

Добывающей компании необходимо принять решение, где бурить новую скважину.

Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. (проанализировать возможную прибыль и риски техникой Bootstrap.)

Шаги для выбора локации:

  • В избранном регионе ищут месторождения, для каждого определяют значения признаков;
  • Строят модель и оценивают объём запасов;
  • Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
  • Прибыль равна суммарной прибыли отобранных месторождений.

Содержание

  • 0.1 Описание проекта
  • 0.2 Описание данных
  • 1 Загрузка и подготовка данных
  • 1.1 Проверка на пропуски
  • 1.2 Проверка на дубликаты
  • 1.3 Смотрим выбросы
  • 2 Обучение и проверка модели
  • 3 Подготовка к расчёту прибыли
  • 4 Расчёт прибыли и рисков
  • 4.1 Выводы
  • 5 Чек-лист готовности проекта

Описание данных

  • id — уникальный идентификатор скважины;
  • f0, f1, f2 — три признака точек (они значимы);
  • product — объём запасов в скважине (тыс. баррелей).

Реализация проекта

В рамках исследования проведена загрузка и подготовка данных. Проведена проверка на пропуски, дубликаты и выбросы.

Обучена модель линейной регрессии, и подготовлен прогноз запасов для скважин трёх регионов.

-2

Регион_0. Средний запас сырья: 92.59 тыс. баррелей rmse: 37.57 Регион_1. Средний запас сырья: 68.72 тыс. баррелей rmse: 0.89 Регион_2. Средний запас сырья: 94.96 тыс. баррелей rmse: 40.03.

Достаточный объём сырья для безубыточной разработки новой скважины равен 111111 барреля или 111.111 единицы продукта (тыс. баррелей)

-3

В каждом из трёх регионов средний запас сырья скважины меньше полученного значения достаточного объёма сырья на 18.5, 42.3, 16.1 тыс. баррелей.

Применили технику Bootstrap с 1000 выборок, для нахождения распределение прибыли

-4
-5

Средняя прибыль лучших месторождений региона_0 равна 425 938 526 руб.

Средняя прибыль лучших месторождений региона_1 равна 515 222 772 руб.

Средняя прибыль лучших месторождений региона_2 равна 435 008 362 руб.

95% доверительный интервал для средней прибыли 200 лучших месторождений региона_0: -102090093, 947976352

95% доверительный интервал для средней прибыли 200 лучших месторождений региона_1: 68873225, 931547590

95% доверительный интервал для средней прибыли 200 лучших месторождений региона_2: -128880546, 969706953

Риск убытков региона_0 равен 6 %

Риск убытков региона_1 равен 1 %

Риск убытков региона_2 равен 6 %

На основании полученных данных можно сделать вывод, что регион 1 является наиболее привлекательным для разработки. Самая высокая прибыль лучших месторождений, более узкие рамки доверительного интервала и наименьший риск получения убытков позволяют обосновать соответствующий вывод по региону_1.

Данный регион рекомендован к освоению.

Ссылка на мой код в github