Описание проекта
Добывающей компании необходимо принять решение, где бурить новую скважину.
Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. (проанализировать возможную прибыль и риски техникой Bootstrap.)
Шаги для выбора локации:
- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.
Содержание
- 0.1 Описание проекта
- 0.2 Описание данных
- 1 Загрузка и подготовка данных
- 1.1 Проверка на пропуски
- 1.2 Проверка на дубликаты
- 1.3 Смотрим выбросы
- 2 Обучение и проверка модели
- 3 Подготовка к расчёту прибыли
- 4 Расчёт прибыли и рисков
- 4.1 Выводы
- 5 Чек-лист готовности проекта
Описание данных
- id — уникальный идентификатор скважины;
- f0, f1, f2 — три признака точек (они значимы);
- product — объём запасов в скважине (тыс. баррелей).
Реализация проекта
В рамках исследования проведена загрузка и подготовка данных. Проведена проверка на пропуски, дубликаты и выбросы.
Обучена модель линейной регрессии, и подготовлен прогноз запасов для скважин трёх регионов.
Регион_0. Средний запас сырья: 92.59 тыс. баррелей rmse: 37.57 Регион_1. Средний запас сырья: 68.72 тыс. баррелей rmse: 0.89 Регион_2. Средний запас сырья: 94.96 тыс. баррелей rmse: 40.03.
Достаточный объём сырья для безубыточной разработки новой скважины равен 111111 барреля или 111.111 единицы продукта (тыс. баррелей)
В каждом из трёх регионов средний запас сырья скважины меньше полученного значения достаточного объёма сырья на 18.5, 42.3, 16.1 тыс. баррелей.
Применили технику Bootstrap с 1000 выборок, для нахождения распределение прибыли
Средняя прибыль лучших месторождений региона_0 равна 425 938 526 руб.
Средняя прибыль лучших месторождений региона_1 равна 515 222 772 руб.
Средняя прибыль лучших месторождений региона_2 равна 435 008 362 руб.
95% доверительный интервал для средней прибыли 200 лучших месторождений региона_0: -102090093, 947976352
95% доверительный интервал для средней прибыли 200 лучших месторождений региона_1: 68873225, 931547590
95% доверительный интервал для средней прибыли 200 лучших месторождений региона_2: -128880546, 969706953
Риск убытков региона_0 равен 6 %
Риск убытков региона_1 равен 1 %
Риск убытков региона_2 равен 6 %
На основании полученных данных можно сделать вывод, что регион 1 является наиболее привлекательным для разработки. Самая высокая прибыль лучших месторождений, более узкие рамки доверительного интервала и наименьший риск получения убытков позволяют обосновать соответствующий вывод по региону_1.
Данный регион рекомендован к освоению.