Добавить в корзинуПозвонить
Найти в Дзене
MLinside

Что реально нужно из математики для старта в ML

Мы часто общаемся с новичками в ML. С теми, кто хочет пойти на курс «База ML» и теми, кто уже его проходит. И, пожалуй, самое частое опасение у всех, это математика. Многим кажется, что всё слишком сложно, и лучше не лезть. А зря. Для старта в ML нужно разобраться в нескольких концепциях, а остальное можно догнать потом, с ростом вашего уровня. Во-первых, векторы и матрицы. Вы должны понимать, что это такое и какие базовые операции с ними можно делать. Это основа, так как большинство моделей ML можно выразить в матричном виде. Во-вторых, это умножение матриц и это ключевая операция. Вся работа нейронных сетей это, по сути, последовательное перемножение матриц с весами. Ну и в-третьих, собственные векторы и собственные значения. Эти концепции важны для методов уменьшения размерности, таких как PCA, которые помогают упростить данные без потери важной информации. Первое, это производные. Вы должны понимать ее основной смысл – скорость изменения функции. Второе, это градиент. Это вектор из
Оглавление

Мы часто общаемся с новичками в ML. С теми, кто хочет пойти на курс «База ML» и теми, кто уже его проходит. И, пожалуй, самое частое опасение у всех, это математика. Многим кажется, что всё слишком сложно, и лучше не лезть. А зря. Для старта в ML нужно разобраться в нескольких концепциях, а остальное можно догнать потом, с ростом вашего уровня.

Линейная алгебра

Во-первых, векторы и матрицы. Вы должны понимать, что это такое и какие базовые операции с ними можно делать. Это основа, так как большинство моделей ML можно выразить в матричном виде.

Во-вторых, это умножение матриц и это ключевая операция. Вся работа нейронных сетей это, по сути, последовательное перемножение матриц с весами.

Ну и в-третьих, собственные векторы и собственные значения. Эти концепции важны для методов уменьшения размерности, таких как PCA, которые помогают упростить данные без потери важной информации.

Математический анализ

Первое, это производные. Вы должны понимать ее основной смысл – скорость изменения функции.

Второе, это градиент. Это вектор из частных производных, который всегда указывает в сторону самого быстрого роста функции. Чтобы минимизировать ошибку, мы движемся в обратную сторону. Этот метод называется градиентный спуск.

Третье, это различные функции потерь и понимание их свойств. Это функции, которые показывают, насколько сильно наша модель ошибается. И вам нужно понимать несколько основных и совсем несложных фактов про эти функции.

Теория вероятностей и статистика

Во-первых, базовые понятия. Средние значения, медиана, дисперсия, стандартное отклонение – это ваши лучшие друзья. Это основа для анализа и подготовки любых данных.

Во-вторых, это распределение. Понимать, что такое нормальное, биномиальное и равномерное распределение.

В-третьих, АБ-тестирование. Этот инструмент позволяет специалисту понять, какой выигрыш бизнес получает после внедрения ML-модели. И это неотъемлемая часть многих задач в области Data Science.

А чтобы вы могли проверить себя и понять, где вы уже сильны, а что стоит добить, мы собрали мини-опрос ниже. Там всего 3 коротких вопроса, справитесь?

Что по сути делает умножение матриц в линейных моделях?
A) Склеивает все признаки в одно число
B) Применяет веса к признакам и суммирует их
C) Сортирует строки датасета
D) Ничего не делает, это просто формальность

Как простыми словами описать шаг градиентного спуска?
A) Идем туда, где ошибка растет быстрее всего
B) Случайно меняем параметры и смотрим, что выйдет
C) Делаем маленький шаг в сторону, где ошибка падает быстрее всего
D) Двигаем один параметр до максимума, остальные не трогаем

Для чего на практике чаще всего используют PCA?
A) Чтобы увеличить число признаков
B) Чтобы уменьшить размерность, сохранив большую часть дисперсии
C) Чтобы автоматически находить выбросы
D) Чтобы сбалансировать классы в выборке