машинное обучение

Построение и исследование моделей

подборка · 9 материалов

2 года назад

Визуализация ошибок, как навигатор к скрытым проблемам модели

Визуализация — это язык, который позволяет нам видеть данные и понимать их смысл. Простой и эффективный способ диагностики результатов работы модели на различных объектах заключается в анализе разницы между прогнозами и целями. Он может показать, что в некоторых группах поведение модели имеет особенности, например, склонность к завышению или занижению прогнозов. Для демонстрации того, как строится такая визуализация загрузим набор данных: Разобьем датасет на две группы для обучения и оценки: Теперь...

Властелин машин

231 читали · 2 года назад

DBSCAN для кластеризации и обнаружения аномалий

Рассмотрим один из передовых методов кластеризации - DBSCAN. Для многих исследователей эффективность метода зачастую компенсируется сложностью его настройки, из-за чего предпочтение отдается другим алгоритмам. Давайте внесем ясность в вопрос и упростим использование DBSCAN. Основные параметры алгоритма, которые меняются от задачи к задаче: Они определяют 3 вида точек: Далее формируются отдельные кластера для каждой группы достижимых на расстоянии eps ядерных точек (возможно, одной). Граничным точкам...

Властелин машин

2 года назад

Неочевидные способы подбора количества групп для агломеративной кластеризации

В этой задаче библиотека scikit-learn нам не поможет, поэтому обратимся к SciPy. Для начала следует воспользоваться функцией linkage из scipy.cluster.hierarchy, которая и проведет процесс кластеризации (ранее я разбирал ее работу). В третьей колонке она возвращает дистанцию между объединяемыми кластерами (из первого и второго столбцов). На ее основании можно и задать предельный порог, после которого дистанция считается существенной и кластера перестают объединяться: Мера дистанции Имея результат linkage, можно применить функцию fcluster того же модуля для присвоения меток кластеров...

Властелин машин

386 читали · 3 года назад

Функции sklearn, с которыми понимание работы дерева решений сильно облегчится

Рассмотрим пример построения дерева решений и работы модели на примере классификации цветков Ириса: from sklearn.datasets import load_iris iris_df = load_iris(as_frame=True)['frame'] iris_df.head() Обучим классификатор: from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier(random_state=0).fit(iris_df.drop(columns='target'), iris_df.target) features_l = iris_df.drop(columns='target').columns.tolist() Визуализация дерева В модуле sklearn.tree есть функция plot_tree, с которой...

Властелин машин

3 года назад

Оценка влияния признаков на модель, о которой незаслуженно забывают

Ключам никогда не сообщают, какую дверь им предстоит открыть (Сергей Лукьяненко). Для оценки влияния признаков на модель машинного обучения следует использовать разные способы. Одним из ключевых является обучение модели на парах признаков и визуализация границ принятия решений. Конечно, хотелось бы подавать для этого все признаки, тем более, что именно так они включаются в итоговую модель (а не отдельными парами). Однако ввиду ограниченности человеческого восприятия приходится чем-то пренебрегать...

Властелин машин

3 года назад

Раскрываем суть регрессии через смысл коэффициентов

Рассмотрим, как получить коэффициенты парной линейной регрессии, чтобы понять логику этой модели. Пусть наша формула предсказания цели через неизвестный x имеет следующий вид: Коэффициенты находятся путем решения задачи минимизации ошибки: Для поиска минимума найдем производные по 𝛽𝑜 и 𝛽1: То есть, 𝛽1 отражает линейную связь между зависимой и независимой переменной. Если ее нет, то cov = 0 и 𝛽1==0, а регрессия будет предсказывать среднее цели, что тоже не лишено смысла. Из формулы 𝛽1 через...