Математика для Data Science: ключ к успеху в науке о данных. Основы линейной алгебры, математического анализа, статистики и теории вероятностей, необходимы для работы с большими данными. Статьи - конспекты, помогут разобраться в сложных концепциях, предлагая практические примеры и задачи, которые пригодятся в реальных проектах. Высокие навыки в математике - гарантия стать востребованным специалистом в области Data Science.
!!! Дисклеймер !!!
Эта статья хоть и написана по книге: "Математика для data science; ISBN 978-601-08-4357-8; O'Reilly; Спринт Бук", она не является её копированием. Также статья не сможет заменить курсы или учебные пособия. Здесь изложены выжимки из книги в виде конспекта.
Теория чисел
Натуральные числа - положительные числа для простого счета (иногда с 0).
Целые неотрицательные числа - часть натуральных чисел + 0.
Целые числа - числа от -∞, 0, до +∞.
Рациональные числа - все конечные дроби (рацио (лат.) - пропорция).
Иррациональные числа - все бесконечные дроби.
Вещественные (действительные) числа - любые дроби, по сути все варианты чисел.
Комплексные и мнимые числа - числа, которые можно получить извлекая корень из отрицательного числа.
Порядок выполнения арифметических операций
- ()
- a^b
- * и /
- + и -
Если возникают операции с одинаковым приоритетом - слева направо.
Функции
Функции - выражения, которые передают соответствие между двумя и более переменными.
Пример простой линейной функции:
y = 2x + 1
x - аргумент функции, независимая переменная или входная переменная.
y - значение функции, зависимая переменная или выходная переменная.
В качестве обозначений функции f(x) = y.
Если в качестве аргумента функции брать вещественные числа, то получится непрерывная линия из точек - график функции f(x).
Двумерная плоскость с двумя числовыми осями, называется декартовой или прямоугольной системой координат. Точки пересечения графика с соответствующими осями - значения переменных функции.
Пример визуализации линейной функции с помощью Python библиотеки sympy.
Пример визуализации квадратичной функции с помощью Python библиотеки sympy.
Если график непрерывный, то функция непрерывная, иначе функция с точками разрыва.
Если график линейный, то функция линейная - иначе нелинейная.
У функции может быть несколько аргументов (переменных), например для функции с аргументами x, y - f(x,y) = 2x + 3y. У такой функции график будет в трех измерениях.
Независимо от того, сколько аргументов у функции, она, как правило, выводит только одну зависимую переменную. Если нужно вычислить несколько зависимых переменных, то для каждой из них, вероятно, понадобится отдельная функция.
Суммы
Сумма всех натуральных чисел от 1 до 5, при этом, умножив каждое из них на 2. Данное условие можно кратко записать с помощью символа Сигма - Σ.
В данном примере используется система верстки документов LaTeX. Она предназначена для красивого отображения математических формул в текстовых редакторах, большинство редакторов поддерживает LaTeX по умолчанию. А Дзен нет, поэтому тут будут картинки.
В Python это выражение будет выглядеть так:
i - переменная для перебора значений в цикле for.
Часто, для определения количества элементов последовательности используют букву n.
В Python это выражение будет выглядеть так:
Суть суммирования в том, что с помощью индекса i и максимального значения n мы указываем все значения перебора (цикла).
Возведение в степень
Возведение в степень - умножение числа само на себя, указанное количество раз.
Основание степени - число (переменная).
Показатель степени - количество умножений.
Правило произведения степеней - основания должны быть равны!
Дробное представление степеней - это альтернативный способ представления корней.
Логарифмы
Логарифм - это математическая функция, которая находит показатель степени определенного числа и основания.
На Python это выглядит так:
Примечание. Если не указывать основание функции log() в Python, то по умолчанию, используется число е, как и в Data Science. В других областях, как правило, используется основание 10.
Как и у степеней, у логарифмов есть несколько свойств при умножении, делении, возведении в степень.
Число е и натуральные логарифмы
Особым числом для математики является **число Эйлера** или *е*, и равно примерно 2,71828.
Число е
Что такое число е? Допустим у меня есть 100 тыс. рублей и я их хочу положить в банк на 2 года под 20 % годовых. Все банки дают одинаковый процент, но период начисления процентов разный (проценты идут на другой счет, сумма депозита не меняется):
1. ежемесячное - 12 х 2 = 24 раза;
2. ежедневное - 365 х 2 = 730 раз;
3. каждый час - 8760 х 2 = 17 520 раз;
4. каждую минуту - 525 600 х 2 = 1 051 200 раз
5. каждую секунду - 31 536 000 х 2 = 63 072 000 раза;
6. непрерывно - ∞ количество раз.
Для расчетов воспользуемся новыми знаниями из этой статьи. Тело депозита и сумма всех выплат A, тело депозита P, процентная ставка r, периодичность выплат n, срок депозита t.
Таким образом для каждого варианта условий получаем конечный доход:
Получается, чем чаще происходит начисление процентов, тем меньше прирост суммы. Если неограниченно продолжать уменьшать временной отрезок между начислениями процентов, пока начисления не станут непрерывными, к чему это приведет?
В такой ситуации на помощь приходит число е (число Эйлера), которое приблизительно равно 2,71828. Формула для расчета непрерывного процента:
Натуральные логарифмы
Логарифмы, у которых в качестве основания используется число е, называются натуральными. В некоторых программах для его обозначения используют ln(), а не log().
Однако в Python натуральный логарифм задается функцией log().
На этом первая часть статьи заканчивается. Вторая часть здесь.
#Math