Найти в Дзене
Давным-давно в далекой стране жила группа исследователей, которые работали над созданием модели машинного обучения для решения очень важной задачи. Задача заключалась в выявлении мошеннических операций с кредитными картами, чтобы предотвратить финансовые потери банков. Исследователи собрали большой массив данных о транзакциях по кредитным картам, как подлинных, так и мошеннических. Однако они быстро поняли, что набор данных был крайне несбалансированным. Большинство транзакций были подлинными, и лишь небольшой процент - мошенническими. Это означало, что распределение по классам было неравномерным: примеров одного класса (подлинные транзакции) было гораздо больше, чем другого (мошеннические транзакции). Исследователи знали, что это может стать проблемой для их модели машинного обучения, поскольку она, скорее всего, будет предвзято относиться к классу большинства. Они рассмотрели возможность перевыбора класса меньшинства, но решили отказаться от этого, так как это привело бы к чрезмерной подгонке. Они также рассматривали вариант заниженной выборки для класса большинства, но это привело бы к потере информации. После долгих обсуждений и экспериментов исследователи решили использовать методику под названием "обучение с учетом затрат" для устранения дисбаланса классов в их наборе данных. Это предполагает назначение разной стоимости ошибочной классификации для двух классов, причем более высокая стоимость назначается за ошибочную классификацию мошеннической транзакции как подлинной. Это побуждало модель уделять больше внимания классу меньшинства и уменьшало вероятность того, что она будет предвзято относиться к классу большинства. С помощью этой техники исследователи смогли обучить модель машинного обучения, которая показала хорошие результаты на несбалансированном наборе данных. Модель смогла точно идентифицировать мошеннические транзакции и была внедрена в нескольких банках, чтобы помочь предотвратить финансовые потери.
2 года назад