Найти тему
День 18: [Regression #1] Предсказываем успешность статьи на Zen'е
Модели регрессивного анализа представляют собой восстановленные функции по известным соотношениям аргументов функции и выходным значениям. То есть регрессионные модели основаны на обучении с учителем. Немного погрузиться в терминологию можно здесь. Подробнее почитать про функции можно здесь. Ещё немного о моделях регрессии Регрессионные модели бывают разными, например они могут определять разный вид функции. Ведь по-большому счёту в модели регрессии уже определён каркас функции, а всё что меняется при обучении - это коэффициенты при x...
176 читали · 5 лет назад
День 17: Всё что нужно знать о функциях, чтобы погрузиться в ML
Мы уже рассматривали разные виды матриц в качестве неких функций. Функция в общем смысле может рассматриваться как отображение неких входных параметров на выходные значения, то есть некий алгоритм который при получении на вход x всегда в качестве результата вернёт y. Стоит понимать, что не все функции такие "правильные", но сейчас нас интересуют только такие чистые функции. Все допустимые значения параметров функции объеденяются множеством определения функции. Все выходные значения функции объединяются множеством значений функции...
353 читали · 5 лет назад
День 16: [Decision Tree #3] Обучаем модель и измеряем точность
Ранее мы получили более иль менее подготовленные данные и мы можем начать обучение модели. Но в первую очередь мы должны определиться с тем как мы будем проверять, что модель обучилась хорошо и её результатам можно верить. А что такое хорошо? Для определённости неплохо было бы оперировать числовыми метриками, а не описательными. И естественно такие есть у каждой модели. Какие из этих метрик качества общие для ряда моделей, какие-то специфичные для конкретной модели. Как правило используют сразу несколько метрик для анализа качества модели...
298 читали · 5 лет назад
День 15: [Decision Tree #2] Подготавливаем признаки
Ранее мы сформировали задачу и собрали наши данные в виде структурированного DataFrame'а. Согласно нашей задумке основным признаком для модели должен быть message. Но ничего хорошего не произойдёт, если мы передадим его как есть, так как каждое сообщение уникально и чтобы найти общее мы смотрим как минимум на слова, а не на всё предложение в целом. Нужно разбить предложение на слова, чтобы алгоритм мог сравнивать сообщения на уровне слов: Но и массив слов мы не можем использовать в качестве признака для модели...
109 читали · 5 лет назад
День 14: [Decision Tree #1] Формулируем задачу и собираем DataFrame
Decision Tree - алгоритм с учителем для классификации или регрессии. Немного терминологии: Алгоритмы с обучением или "с учителем" прежде чем использовать нужно обучить на размеченных данных. Алгоритмы "без учителя" используются напрямую без необходимости обучения. Размеченные данные - данные, которые уже включают в себя правильный результат. Их стоит рассматривать как примеры, которые используют обучающиеся алгоритмы для обучения. Задачи машинного обучения делят по основным типам: 1) Задачи регрессии...
157 читали · 5 лет назад
День 13: Виды матриц
Как обсуждалось ранее можно рассматривать матрицу как функцию принимающую в качестве аргумента вектор и возвращающую другой вектор. При этом если матрица прямоугольная m x n, то вектор переданный в качестве аргумента должен иметь размерность m, а на выходе вектор будет иметь размерность n. Квадратная матрица не меняет размерность вектора как не трудно догадаться. Матричные преобразования очень часто используются в области трансформации изображений, так как с учётом эффективности матричных операций они позволяют кодировать достаточно сложные трансформации за константную сложность операции...
311 читали · 6 лет назад
День 12: Определитель и ранг матрицы
Оба понятия активно используются в анализе избыточности матрицы и проверки на линейную зависимость векторов матрицы. Рассмотрим каким именно образом. Но прежде чем начать, напомню насколько важно подписываться на канал и всячески давать обратную связь, если вы хотите поддержать автора. Определитель матрицы Важный параметр матрицы, который мы в дальнейшем будем частенько использовать - это её определитель или по-другому детерминант. Обозначается как detA или |A|. Определяется детерминант только для квадратных матриц - матриц у которых количество строк равно количеству столбцов...
1164 читали · 6 лет назад
День 11: Базовые операции над матрицами
Сложение матриц и умножение на число мало чем отличается от аналогичных операций с векторами. Сложение матриц Матрицы складываются по-элементно, при этом матрицы должны быть одинакового размера. Каждый элемент результирующей матрицы равен сумме соответствующих элементов слагаемых матриц: Умножение матрицы на число Транспонирование Более интересная операция - транспонирование - или переворот матрицы относительно главной диагонали матрицы. Результатом данной операции является другая матрица, где строка новой матрицы равна столбцу оригинальной...
423 читали · 6 лет назад
День 10: Вектора в матрице
Если мы представили какой-то объект в виде вектора чисел (каждое число как-то характеризует объект), то множество таких объектов, описанных в виде векторов, как правило, объединяют в матрицу. Вычисления над матрицами более эффективны и наглядны, чем над каждым вектором отдельно. На данный момент реализованы очень эффективные алгоритмы для многих операций над матрицами, которые преобразовывают матрицу в целом или частично, а не итеративно проходя и меняя каждый из её элементов. Задачи машинного обучения...
466 читали · 6 лет назад
День 9: Сравнение векторов
Следующая важная операция, которую хорошо бы понимать с математической стороны - это как сравнивать вектора. Многие задачи машинного обучения сводятся к тому, чтобы обнаруживать какие-то корреляции в данных, обнаруживать какая зависимость между разными признаками или объектами, которые описанны в виде векторов. Для наглядности визуализируем вектора на примере двумерного пространства, где значения вектора - это x и y, а линия на графике выходит из координаты (0, 0) и упирается в (x, y): Визуально можно выделить три основных критерия сравнения векторов: 1...
2852 читали · 6 лет назад
День 8: Слишком много векторов. Убираем лишнее. Линейная зависимость.
Как я говорил ранее, прежде чем начать построение любой модели данные следует подготовить. Один из таких этапов - это удаление лишних, избыточных данных. Но как понять какие данные лишние? Для начала разобъём наш dataset на векторы-столбцы, то есть векторы будут хранить значения всех объектов своего одного признака. Одна из таких техник - это поиск линейно зависимых признаков. Линейная зависимость является симптомом того, что один признак может быть выведен из другого признака. Например, хранение одних и тех же данных в разных размерностях...
263 читали · 6 лет назад
День 7: Учимся считать векторами
Чтобы иметь возможность математически или даже программно оперировать сущностями нашего мира, нам нужно их упростить до формы понятной компьютеру или мат. аппарату. Признаковое описание объектов реального мира в виде чисел - это и есть то самое упрощение. Скажем, анализируя потенциальную стоимость конкретной квартиры, мы будем иметь ввиду следующие признаки: 86 - площадь в квадратных метрах 6 - этаж 10 - возраст 54.34 и 98.23 - географические координаты квартиры 3 - количество комнат Признаков может быть сколь угодно много...
169 читали · 6 лет назад