497 подписчиков

Робастность

3 мая 20233 мая 2023

6 мин

Робастность - это свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивость к помехам. Выбросоустойчивый алгоритм способен обрабатывать данные с выбросами и не допускать сильного искажения результата. Выбросоустойчивые алгоритмы - это алгоритмы, которые могут обрабатывать данные с выбросами и не допускать сильного искажения результата. Они могут использоваться в различных областях, таких как статистика, эконометрика и машинное обучение. Вот некоторые из них: Например, метод наименьших квадратов (Least Squares Method) является одним из самых распространенных методов регрессии. Он минимизирует сумму квадратов остатков между наблюдаемыми значениями и прогнозируемыми значениями. Метод наименьших модулей (Least Absolute Deviations Method) также используется для регрессии и минимизирует сумму абсолютных значений остатков. Метод Хьюбера (Huber Method) является гибридом метода наименьших квадратов и метода наименьших

Оглавление

Метод наименьших квадратов
Метод наименьших модулей
Метод Хьюбера

Выбросоустойчивые алгоритмы - это алгоритмы, которые могут обрабатывать данные с выбросами и не допускать сильного искажения результата. Они могут использоваться в различных областях, таких как статистика, эконометрика и машинное обучение. Вот некоторые из них:

Метод наименьших квадратов (Least Squares Method)
Метод наименьших модулей (Least Absolute Deviations Method)
Метод Хьюбера (Huber Method)
Метод Тьюки (Tukey Method)

Например, метод наименьших квадратов (Least Squares Method) является одним из самых распространенных методов регрессии. Он минимизирует сумму квадратов остатков между наблюдаемыми значениями и прогнозируемыми значениями. Метод наименьших модулей (Least Absolute Deviations Method) также используется для регрессии и минимизирует сумму абсолютных значений остатков. Метод Хьюбера (Huber Method) является гибридом метода наименьших квадратов и метода наименьших модулей и позволяет балансировать между ними. Метод Тьюки (Tukey Method) используется для обнаружения выбросов в данных.

Метод наименьших квадратов

Метод наименьших квадратов (Least Squares Method) - это метод оценки параметров регрессии, который минимизирует сумму квадратов остатков. Он используется для решения задач регрессии в случае, когда данные не содержат выбросов или ошибок.

Для вычисления метода наименьших квадратов необходимо выполнить следующие шаги:

Выбрать функцию потерь (loss function), которая будет минимизироваться. В случае метода наименьших квадратов функция потерь - это сумма квадратов остатков.
Выбрать оптимизационный алгоритм, который будет использоваться для минимизации функции потерь. Обычно используются методы градиентного спуска или методы Ньютона.
Вычислить параметры регрессии, которые минимизируют функцию потерь.

import numpy as np
from scipy.optimize import minimize

def least_squares(x, y):
def loss_function(beta):
return np.sum((y - x.dot(beta)) ** 2)

beta_0 = np.zeros(x.shape[1])
result = minimize(loss_function, beta_0)
return result.x

x = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([3, 7, 11])
beta = least_squares(x, y)
print(beta)

В этом примере мы используем библиотеку NumPy для создания матрицы x и вектора y. Затем мы определяем функцию потерь loss_function, которая вычисляет сумму квадратов остатков. Мы используем функцию minimize из библиотеки SciPy для минимизации функции потерь. Наконец, мы выводим результаты.

Метод наименьших модулей

Метод наименьших модулей (Least Absolute Deviations Method) - это метод оценки параметров регрессии, который минимизирует сумму абсолютных значений остатков. Он используется для решения задач регрессии в случае, когда данные содержат выбросы или ошибки.

Для вычисления метода наименьших модулей необходимо выполнить следующие шаги:

Выбрать функцию потерь (loss function), которая будет минимизироваться. В случае метода наименьших модулей функция потерь - это сумма абсолютных значений остатков.
Выбрать оптимизационный алгоритм, который будет использоваться для минимизации функции потерь. Обычно используются методы градиентного спуска или методы Ньютона.
Вычислить параметры регрессии, которые минимизируют функцию потерь.

import numpy as np
from scipy.optimize import minimize

def least_absolute_deviations(x, y):
def loss_function(beta):
return np.sum(np.abs(y - x.dot(beta)))

beta_0 = np.zeros(x.shape[1])
result = minimize(loss_function, beta_0)
return result.x

x = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([3, 7, 11])
beta = least_absolute_deviations(x, y)
print(beta)

В этом примере мы используем библиотеку NumPy для создания матрицы x и вектора y. Затем мы определяем функцию потерь loss_function, которая вычисляет сумму абсолютных значений остатков. Мы используем функцию minimize из библиотеки SciPy для минимизации функции потерь. Наконец, мы выводим результаты.

Метод Хьюбера

Метод Хьюбера (Huber Method) - это гибридный метод, который является комбинацией метода наименьших квадратов и метода наименьших модулей. Он позволяет балансировать между ними.

Для вычисления метода Хьюбера необходимо выполнить следующие шаги:

Выбрать функцию потерь (loss function), которая будет минимизироваться. В случае метода Хьюбера функция потерь - это кусочно-линейная функция, которая переходит от квадратичной функции к линейной функции в зависимости от значения остатка.
Выбрать оптимизационный алгоритм, который будет использоваться для минимизации функции потерь. Обычно используются методы градиентного спуска или методы Ньютона.
Вычислить параметры регрессии, которые минимизируют функцию потерь.

import numpy as np
from scipy.optimize import minimize

def huber(x, y):
def loss_function(beta):
r = y - x.dot(beta)
return np.sum(np.where(np.abs(r) < 1, 0.5 * r ** 2, np.abs(r) - 0.5))

beta_0 = np.zeros(x.shape[1])
result = minimize(loss_function, beta_0)
return result.x

x = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([3, 7, 11])
beta = huber(x, y)
print(beta)

В этом примере мы используем библиотеку NumPy для создания матрицы x и вектора y. Затем мы определяем функцию потерь loss_function, которая вычисляет сумму кусочно-линейной функции потерь Хьюбера. Мы используем функцию minimize из библиотеки SciPy для минимизации функции потерь. Наконец, мы выводим результаты.

Метод Тьюки

Метод Тьюки (Tukey Method) - это метод оценки параметров регрессии, который минимизирует влияние выбросов на результаты. Он используется для решения задач регрессии в случае, когда данные содержат выбросы или ошибки.

Для вычисления метода Тьюки необходимо выполнить следующие шаги:

Выбрать функцию потерь (loss function), которая будет минимизироваться. В случае метода Тьюки функция потерь - это кусочно-линейная функция, которая переходит от квадратичной функции к линейной функции в зависимости от значения остатка.
Выбрать оптимизационный алгоритм, который будет использоваться для минимизации функции потерь. Обычно используются методы градиентного спуска или методы Ньютона.
Вычислить параметры регрессии, которые минимизируют функцию потерь.

import numpy as np
from scipy.optimize import minimize

def tukey(x, y):
def loss_function(beta):
r = y - x.dot(beta)
c = 4.685

w = np.where(np.abs(r) < c, (1 - (r / c) ** 2) ** 2, 0)
return np.sum(w * r ** 2)

beta_0 = np.zeros(x.shape[1])
result = minimize(loss_function, beta_0)
return result.x

x = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([3, 7, 11])
beta = tukey(x, y)
print(beta)

В этом примере мы используем библиотеку NumPy для создания матрицы x и вектора y. Затем мы определяем функцию потерь loss_function, которая вычисляет сумму кусочно-линейной функции потерь Тьюки. Мы используем функцию minimize из библиотеки SciPy для минимизации функции потерь. Наконец, мы выводим результаты.

Робастность стратегии

Робастность алгоритма по PnL можно рассчитать с помощью медианного дохода (Median Income) и медианного отклонения (Median Absolute Deviation). Медианный доход - это медианное значение всех доходов за определенный период времени. Медианный доход используется в качестве меры центральной тенденции, которая не чувствительна к выбросам. Медианное отклонение - это медианное значение всех абсолютных отклонений от медианного дохода. Медианный доход и медианное отклонение используются для расчета робастности алгоритма по PnL.

Вот пример на Python для расчета медианного дохода и медианного отклонения:

import numpy as np

def robust_statistics(pnl):
median_income = np.median(pnl)
mad = np.median(np.abs(pnl - median_income))
return median_income, mad

pnl = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
median_income, mad = robust_statistics(pnl)
print("Median Income:", median_income)
print("Median Absolute Deviation:", mad)

В этом примере мы используем библиотеку NumPy для создания массива pnl. Затем мы определяем функцию robust_statistics, которая вычисляет медианный доход и медианное отклонение. Наконец, мы выводим результаты.