Найти в Дзене

Машинное обучение в бизнесе, что это такое и для чего применяется.

Машинное обучение (machine learning, ML)
— класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.
Преимущества машинного обучения скрываются в вычислительных мощностях. Аналитик владеющий навыками программирования исходя из задач и поставленных целей подбирает и настраивает алгоритмы,
Оглавление

Машинное обучение (machine learning, ML)

— класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.

Преимущества машинного обучения скрываются в вычислительных мощностях. Аналитик владеющий навыками программирования исходя из задач и поставленных целей подбирает и настраивает алгоритмы, также этот процесс называют построением модели.

Для построения алгоритмов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, эконометрические знания и другие техники работы с данными в цифровой форме.

Объём данных который обрабатывается современными вычислительными мощностями просто колоссален, в докомпьютерные времена то, что аналитик сегодня вычисляет за минуты заняло бы целую научную группу на месяцы и годы.

Чем больший объем данных используется в работе аналитика, тем больше требования к вычислительным мощностям. От тех объёмов, которые сегодня обрабатывают транснациональные корпорации любой, даже самый мощный компьютер просто «зависнет». Они используют облачные сервисы Amazon, NVidia и др. Но для задач малого и среднего бизнеса чаше всего хватает мощностей персональных компьютеров, ноутбуков, или как их называют программисты ― машин.

В этой статье в общих чертах я расскажу о классах алгоритмов машинного обучения, что эти алгоритмы делают и с какой целью используются.

Алгоритмы машинного обучения можно разделить на три основные группы: алгоритмы классификации, кластеризации и регрессии. Для решения одних и тех же задач можно использовать различные алгоритмы или их сочетания, ансамбли моделей.

Что касается типов данных с которыми сегодня может работать аналитик то это не только структурированные данные, такие как таблицы и базы данных, но и неструктурированные данные – текст, изображение, звук или видео. Все эти данные могут быть распознаны, прочитаны и обработаны машинными методами.

Приступим к рассмотрению классов алгоритмов.

Алгоритмы классификации.

Используются, как нетрудно догадаться, для классификации объектов по признаковым параметрам. Эти алгоритмы машинного обучения относятся к обучению с учителем. То есть сначала человек должен обучить алгоритм на массиве данных, а затем алгоритм может приступить к самостоятельной деятельности. Результатом работы таких алгоритмов является дискретная величина, или класс.

В качестве примера рассмотрим системы банковского скоринга. Каждый, кто хоть раз обращался в банк с целью получения кредита сталкивался с этим явлением. Менеджер в офисе заполняет заявку и только через какое-то время даёт ответ, одобрен кредит или нет.

Это время требуется для осуществления скоринга ― алгоритм классифицирует всех обратившихся на тех, кто кредит вернёт и тех, кто скорее всего вернуть не сможет, или даже не планирует. Этот процесс происходит следующим образом: аналитик берёт массив банковских данных содержащий как искомое значение (вернул человек кредит или нет) так и признаковые характеристики, такие как уровень заработной платы, должность, образование, уровень кредитной нагрузки, наличие или отсутствие просрочек по платежам, семейное положение, наличие детей и т.д. Далее начинается обучение алгоритма, в это время вычисляется значимость тех или иных признаков на искомое значение (вернул человек кредит или нет). Когда алгоритм обучен и проверен, ему можно предоставлять данные о людях, заполнивших заявку на кредит и на основании данных о этих людях алгоритм будет прогнозировать вернёт человек кредит или нет.

Алгоритмы регрессии

Также, как и алгоритмы классификации относятся к обучению с учителем, они тоже прогнозируют искомое значение в зависимости от признакового пространства, но в отличии от алгоритмов классификации, искомым значением моделей регресии является не дискретная величина (класс) а непрерывное значение, такие как, цена, температура, скорость и т.д. В качестве примера можно рассмотреть сервисы определения цен на автомобили (drom.ru, auto.ru) или цен на недвижимость (Cian.ru) Алгоритмы регрессии также получают на вход массив данных размеченный человеком, здесь в качестве искомой величины будет числовое значение. Алгоритм изучает признаковое пространство и на основании выявленных закономерностей делает предсказание. Только предсказывают они не классы, а цифровое значение.

Алгоритмы кластеризации

Этот класс алгоритмов работает без обучения. Аналитик не предоставляет ему никаких искомых значений, только чистый массив данных. Задаёт алгоритму параметры и алгоритм исходя из предоставленных данных и настроек модели упорядочивает объекты в сравнительно однородные группы, вычисляет значения меры сходства объектов.

Примером использования могут служить рекомендательные системы в онлайн кинотеатрах. В этом примере объектами являются фильмы, их признаками будут жанр, режиссёр, актёрский состав, год выпуска, страна происхождения, бюджет, отзывы пользователей и т.д. Исходя из признаков и настроек модели все объекты (фильмы) будут разделены на группы по степени сходства, и когда вы посмотрите какой-нибудь фильм, алгоритм может предложить вам к просмотру следующую кинокартину, которая скорее всего также придётся вам по вкусу. Свои предположения алгоритм сделает исходя из степени сходства кинофильмов.

В этой статье мы в общих чертах познакомились с классами алгоритмов машинного обучения и примерами их применения.

В следующих статьях мы будет рассматривать каждый класс отдельно и более широко рассмотрим возможности применения машинного обучения в различных бизнес процессах.

Если Вам интересно узнать больше о аналитике данных, ставьте лайк, подписывайтесь, впереди много интересных публикаций.

http://de-facto.site/