Найти тему

Линейная алгебра для машинного обучения

«Материя есть философская категория для обозначения объективной реальности, которая дана человеку в его ощущениях и существует независимо от них.
Математика - наука о количественных отношениях и пространственных формах материального мира. Несмотря на свою абстрактность, она может быть эффективно использована в материалистическом познании действительности: в естествознании, технике, науках о природе и обществе. С помощью математических моделей и вычислений можно анализировать и прогнозировать развитие сложных систем, будь то экономика, социальные процессы или что-то ещё. Главное – правильно строить модель, учитывая диалектику количественных и качественных изменений.»
(С) ЛЕНИН, модель ИИ от группы «Свободное время».
С просторов Интернет: Линейная алгебра в машинном обучении
С просторов Интернет: Линейная алгебра в машинном обучении

Машинное обучение (Machine Learning, ML) — это средство создания математических моделей для исследования данных. Задачи «обучения» начинаются с появлением у этих моделей настраиваемых параметров, которые можно приспособить для отражения наблюдаемых данных. Таким образом программа как бы обучается на данных. Как только этот процесс будет завершён, модель можно будет использовать для предсказания и понимания различных аспектов данных новых наблюдений.

uhurasolutions.com: Математика для Машинного Обучения
uhurasolutions.com: Математика для Машинного Обучения

Математический каркас машинного обучения составляют:

  • линейная алгебра;
  • вероятность и статистика;
  • многомерный анализ;
  • теория оптимизации.

Принципы линейной алгебры имеют решающее значение для понимания концепций, лежащих в основе машинного обучения.

Что же такое линейная алгебра?

Это раздел математики, определяющий изучение векторов, матриц, плоскостей, отображений и линий, необходимых для линейного преобразования.

Использование линейной алгебры в ML распространяется на решение систем линейных уравнений, оптимизацию моделей и понимание преобразований, присущих таким алгоритмам, как анализ главных компонент (PCA), логистическая регрессия, линейная регрессия, деревья решений, машины опорных векторов (SVM), анализ компонентов, кластеризация, декомпозиция по одному значению (SVD), однократное кодирование, регуляризация.

Основой для обучения и оценки моделей служат наборы данных, которые по сути представляют собой матрицы, где каждая строка представляет собой уникальное наблюдение или точку данных, а каждый столбец представляет определённую функцию или переменную. Табличная структура наборов данных соответствует принципам линейной алгебры, где матрицы являются фундаментальными сущностями.

Линейная алгебра предоставляет инструменты для эффективного манипулирования этими наборами данных и их преобразования. Операции, такие как умножение матриц, сложение и декомпозиция имеют решающее значение для таких задач, как разработка объектов, предварительная обработка данных и вычисление различных статистических показателей. Представление наборов данных в виде матриц обеспечивает плавную интеграцию методов линейной алгебры в рабочий процесс машинного обучения.

Глубокое обучение, основанное на искусственных нейронных сетях (ANNS) с несколькими слоями, в значительной степени опирается на структуры линейной алгебры как для представления модели, так и для обучения. ANNS обрабатывают информацию через взаимосвязанные узлы, организованные в слои, где каждое соединение связано с весом. Фундаментальные операции в нейронной сети — умножение матриц и поэлементная активация — по своей сути являются линейно-алгебраическими. Входной уровень, скрытые слои и выходной уровень в совокупности включают манипулирование векторами, матрицами и тензорами.

datahacker.rs и cedar.buffalo.edu: Векторы, матрицы и тензоры
datahacker.rs и cedar.buffalo.edu: Векторы, матрицы и тензоры

Далее в этой статье пересказаны основы линейной алгебры по материалам книги Ф.И. Карпалевич и Л.Е. Садовский «Элементы линейной алгебры и линейного программирования» М.: Наука, 1965 г.

Теория определителей.

Матрицы — это таблицы на m строк и n столбцов, содержащие проиндексированные элементы. Индексы элемента указывают номер строки и столбца (ячейку матрицы) в которой он расположен.

Они являются основным инструментом в линейной алгебре и имеют широкое применение в различных областях, включая физику, экономику, компьютерную графику и машинное обучение.

Матрицы могут складываться, вычитаться и умножаться друг на друга. Операции над матрицами позволяют решать системы линейных уравнений, находить обратные матрицы, собственные значения и векторы, а также выполнять другие вычисления.

Матрицы также могут быть использованы для представления графов, изображений и других структур данных. Они играют важную роль в анализе данных и решении различных задач.

 Пример матрицы размерностью m x n
Пример матрицы размерностью m x n

Если поменять в матрице строки и столбцы местами, то получится новая матрица, которая называется транспонированной.

Если m=n, то матрица A называется квадратной порядка n.

Элементы a11, a22, a33, … ann образуют главную диагональ такой матрицы. Элементы a1n, a2n-1, …, an1 образуют побочную диагональ. Транспонирование матрицы A сводится к её повороту в пространстве вокруг главной диагонали.

Если n=1, то матрица A называется столбцом, а если m=1, то матрица A называется строкой.

Два столбца A и B называются равными, если элемент каждой ячейки A равен элементу в соответствующей ячейке B.

Два равных столбца A и B
Два равных столбца A и B

Произведением столбца A на число d является новый столбец, в котором каждый элемент умножен на это число. Суммой двух столбцов A и B является столбец, элементы которого равны суммам соответствующих элементов.

Умножение столбца на число и сложение двух столбцов
Умножение столбца на число и сложение двух столбцов

Предположим, что нам дан набор k столбцов: A1, A2, …, Ak. Выберем k произвольных действительных чисел d1, d2, …, dk. Умножим число d1 на A1, d2 на A2 и т. д., наконец, число dk на столбец Ak. В результате получим k столбцов: d1A1, d2A2, …, dkAk. Сложив эти столбцы, получим новый столбец: d1A1 + d2A2 + … +dkAk. Он будет выражать линейную комбинацию столбцов A1, A2, …, Ak. Числа d1, d2, … , dk называются коэффициентами этой линейной комбинации. Каждому набору чисел d1, d2, … , dk отвечает своя линейная комбинация.

Если существует некоторый столбец B которому отвечает определённая линейная комбинация, то говорят, что столбец B линейно выражается через столбцы A1, A2, …, Ak.

Столбцы A1, … , Ak заданного набора называются линейно зависимыми, если существует равная нулю линейная комбинация d1A1+ … + dkAk = 0, в которой по крайней мере один из коэффициентов d1, ... dk отличен от нуля.

Пример 1.
Рассмотрим трёхмерные столбцы

Линейно зависимые трёхмерные столбцы столбцы A1, A2, A3 и A4
Линейно зависимые трёхмерные столбцы столбцы A1, A2, A3 и A4

Данные столбцы линейно зависимы, поскольку существует следующая линейная комбинация: 2A1-A2-A3-0A4=0

Пример 2.
Рассмотрим трёхмерные столбцы

Линейно независимые столбцы A1, A2 и A3
Линейно независимые столбцы A1, A2 и A3

Данные столбцы линейно независимы, поскольку какую бы линейную комбинацию d1A1+d2A2+d3A3 мы не взяли, она будет равна нулю лишь при условии d1=d2=d3=0.

Столбцы A1, … , Ak линейно зависимы тогда и только тогда, когда хотя бы один из них линейно выражается через остальные.

Аналогично тому, как введены линейные действия над столбцами, определяются линейные действия над строками и матрицами.

Для квадратной матрицы можно найти числовую величину, которая содержит информацию о линейной независимости её строк (или столбцов) и обратимости самой матрицы. Такое число называется определителем (детерминантом) матрицы: D=a11a22-a12a21.

Для определителя D матрицы V принято обозначение D= det V или:

Определитель матрицы второго порядка
Определитель матрицы второго порядка

Элементы aij матрицы V называются элементами определителя, а произведения a11a22 и a12a21 — членами определителя. Мы замечаем, что в каждый член определителя входит в точности по одному элементу из каждой строки и каждого столбца определителя.

Для матрицы третьего порядка:

det V = a11a22a33 + a12a23a31 + a13a21a32 - a13a22a31 - a12a21a33 - a11a23a32

Определитель матрицы третьего порядка
Определитель матрицы третьего порядка

Мы замечаем, что каждый член определителя является произведением трёх его элементов — точно по одному из каждой строки и каждого столбца. При этом номера столбцов, к которым принадлежат эти сомножители, образуют некоторую перестановку чисел 1, 2, 3. Всего различных перестановок чисел 1, 2, 3 имеется 3!=6 (факториал n!=1*2*3*...*n). Положительные или отрицательные значения перестановок определяются в зависимости от их чётности. Чётные перестановки берутся при вычислении определителя со знаком плюс, а нечётные со знаком минус.

Перестановка является чётной если число всех инверсий в перестановке чётное и является противном случае перестановка нечётная. Инверсией называется такая перестановка, в которой большее из чисел расположено левее меньшего.

Например первому член суммы a11a22a33 отвечает перестановка 1 2 3, в ней 0 инверсий, т. е. она чётная и слагаемое берётся со знаком плюс. Второму члену суммы a12a23a31 соответствует перестановка 2 3 1, в ней 2 инверсии: 2 1 и 3 1, поэтому это слагаемое берётся тоже с плюсом. А вот слагаемому a13a22a31 соответствует перестановка 3 2 1, в которой 3 инверсии: 3 2, 3 1 и 2 1, т. е. число инверсий нечётное, поэтому слагаемое берётся со знаком минус.

Опираясь на этот подход можно найти определитель матрицы порядка n следующим образом:

детерминант матрицы A порядка n равен алгебраической сумме n! произведений вида:

взятых со знаком плюс или минус в зависимости от чётности или нечётности перестановки
взятых со знаком плюс или минус в зависимости от чётности или нечётности перестановки
Каждое из n! указанных произведений называется членом определителя.
Каждое из n! указанных произведений называется членом определителя.
Основные свойства определителей
  1. При транспонировании матрицы её определитель не меняется. Это свойство указывает на полное равноправие строк и столбцов определителя. Если некоторое утверждение справедливо относительно столбцов определителя, то аналогичное утверждение справедливо и для его строк.
  2. Если все элементы какого-либо столбца определителя равны нулю, то и сам определитель равен нулю.
  3. При перестановке двух любых столбцов определителя его знак меняется на противоположный, а абсолютная величина остаётся неизменной.
  4. Определитель с двумя одинаковыми столбцами равен нулю.
  5. Если j-й столбец Aj определителя D является линейной комбинацией Aj= d1B+d2C двух произвольных столбцов B и C, то и сам определитель оказывается линейной комбинацией:
    D=Dj(d1B+d2C)=d1Dj(B)+d2Dj(C) определителей Dj(B) и Dj(C). Обозначение Dj(B) означает, что в определителе D j-й столбец Aj заменён на столбец B.
  6. При умножении любого столбца определителя на произвольное число d сам определитель умножается на это же число.
  7. Если какой-либо столбец определителя является линейной комбинацией других его столбцов, то определитель равен нулю.
  8. Определитель не изменится, если к любому его столбцу прибавить произвольную линейную комбинацию остальных его столбцов.

Возьмём определитель третьего порядка:

Вычисление определителя третьего порядка.
Вычисление определителя третьего порядка.

Выделим в нём некоторый элемент, например, aij. Соберём указанной выше сумме все члены определителя, в которые в качестве множителя входит aij и вынесем его за скобки. Оставшееся в скобках выражение обозначается через Aij и называется алгебраическим дополнением элемента aij в определителе D.

Например, возьмём в качестве aij элемент a23. Так как a23 входит лишь во второе и последнее слагаемое суммы, то его алгебраическим дополнением является выражение:

Алгебраическое дополнение для элемента a23
Алгебраическое дополнение для элемента a23

Таким же путём можно найти алгебраические дополнения остальных элементов определителя.

Алгебраическое дополнение Aij элемента aij не зависит от элементов i-й строки и j-го столбца определителя.

Определитель равен сумме произведений всех элементов любого из его столбцов на их алгебраические дополнения.

Вычисление определителя через алгебраические дополнения всех элементов столбца
Вычисление определителя через алгебраические дополнения всех элементов столбца

Сумма произведений всех элементов некоторого столбца определителя на алгебраические дополнения соответствующих элементов другого столбца равна нулю.

Рассмотрим определитель D k-го порядка:

Определитель D k-го порядка
Определитель D k-го порядка

Выделим в нём некоторый элемент, например aij. Вычеркнем в определителе i-ю строку и j-тый столбец, в которых расположен выделенный элемент aij. В результате останется определитель n-1-го порядка. Этот оставшийся определитель называется минором aij в определителе D и обозначается через Mij.

Минор элемента aij в определителе D
Минор элемента aij в определителе D

Минор Mij элемента aij в определителе D и алгебраическое дополнение Aij этого элемента связаны формулой:

-18

Т.е. алгебраическое дополнение может отличаться от минора лишь знаком. Если сумма номеров строки и столбца, на пересечении которых расположен элемент aij чётна, то Aij=Mij, если же эта сумма нечётна, то Aij=-Mij.

Минор матрицы — это определитель квадратной подматрицы, полученный из исходной матрицы путём выбора определённых строк и столбцов. Предположим, что нам дана матрица U из m строк и n столбцов:

Матрица из m строк и n столбцов.
Матрица из m строк и n столбцов.

Выделим в ней произвольно k строк и k столбцов. Элементы, стоящие на пересечении выделенных строк и столбцов, образуют квадратную матрицу k-го порядка. Определитель этой матрицы называется минором k-го порядка матрицы U.

Выбирая всевозможными способами по k строк и k столбцов получаем всевозможные миноры k-го порядка матрицы U.

Матрица U обладает минорами различных порядков. Минорами первого порядка являются сами сами элементы матрицы U. Максимальный возможный порядок миноров матрицы U равен наименьшему из чисел m и n.

Наибольший из порядков миноров, отличных от нуля, называется рангом матрицы, который обозначается как r(U). Также ранг матрицы можно определить как максимальное количество линейно независимых строк или столбцов в матрице. Он имеет много важных свойств и применений в линейной алгебре и прикладных областях, таких как теория графов, оптимизация и обработка сигналов.

Пример.
Пусть у нас есть матрица размерностью 3 x 3:

Чтобы найти ранг этой матрицы, мы можем использовать миноры.
Чтобы найти ранг этой матрицы, мы можем использовать миноры.

Возьмём миноры порядка 2 (2 x 2 подматрицы) и найдём их определители:

Миноры 2-го порядка матрицы U и их определители
Миноры 2-го порядка матрицы U и их определители

Заметим, что все определители миноров порядка 2 ненулевые. Следовательно ранг матрицы A равен 2.

Если все миноры i-го порядка матрицы U равны нулю, то все её миноры порядков больших, чем i, также равны нулю.

Всякий отличный от нуля минор матрицы, порядок которого равен её рангу, называется базисным минором этой матрицы.

Всякий столбец матрицы является линейной комбинацией её базисных столбцов, а всякая её строка — линейной комбинацией базисных строк.

Пример. Предположим у нас есть матрица A:

-22

В этом случае базисные столбцы [1, 3] и [2, 4], а базисные строки [1, 2] и [3, 4].

Строку [1, 2] можно получить, если её умножить на -0,5 и прибавить к ней строку [3, 4], умноженную на 0,5. Следовательно первая строка является линейной комбинацией базисных строк матрицы A. Строку [3, 4] можно получить, если её умножить на 1 и прибавить к ней строку [1, 2] умноженную на 0. Следовательно вторая строка является линейной комбинацией базисных строк матрицы A. Таким образом каждая строка матрицы A является линейной комбинацией её базисных строк.

Для столбцов всё аналогично.

Отсюда есть полезное следствие:

Определитель D тогда и только тогда равен нулю, когда его столбцы линейно зависимы.

Векторные пространства.

Введём на плоскости прямоугольную систему координат xOy. Из курса аналитической геометрии известно, что каждый вектор a на плоскости задаётся своими координатами x и y — проекциями на координатные оси. При этом любая пара чисел x и y определяет некоторый вектор a=(x,y). Подобно этому в прямоугольной пространственной системе координат всякий вектор x задаётся своими тремя координатами x1, x2, x3 и записывается x=(x1,x2,x3).

Два вектора a=(x1,x2,x3) и b=(y1,y2,y3) оказываются равными, если равны их соответствующие координаты: x1=y1, x2=y2, x3=y3.

Линейные операции (сложение и умножение на число) над векторами, заданными своими координатами, сводятся к аналогичным операциям над координатами этих векторов.

Понятие равенства, а также линейные операции над векторами трёхмерного пространства, если их записать через координаты, полностью совпадают с соответствующим понятием и действием над строками из трёх элементов.

Произвольный упорядоченный набор x1, x2, … xn из n действительных чисел называется n-мерным вектором x. Числа x1, x2, … , xn, составляющие упомянутый набор, называются координатами вектора x.

Совокупность всех n-мерных векторов называется n-мерным векторным пространством.

Координаты n-мерного вектора x мы можем расположить в строчку или столбец. В первом случае говорят о векторе-строке: x=(x1, x2, …, xn), а во втором случае — о векторе столбце:

Вектор-столбец и вектор-строка
Вектор-столбец и вектор-строка

Рассмотрим систему из k векторов: X1, X2, …, Xk из n-мерного векторного пространства.

Предположим, что n-мерный вектор Y линейно выражается через векторы X1, X2, …, Xk, т. е. Y=d1X1+d2X2+...+dkXk. В этом случае говорят, что вектор Y разлагается по векторам

X1, X2, …, Xk.

Всякий вектор Xi указанной системы линейно выражается через векторы этой системы (для этого достаточно принять di=1, а все остальные коэффициенты положить равными нулю.)

Если вектор Y линейно выражается через часть системы X1, X2, …, Xk, то он выражается и через все векторы этой системы.

Если система Z1, Z2, …, Zk линейно выражается через систему Y1, Y2, …, Yk, а та в свою очередь линейно выражается через систему X1, X2, …, Xk, то и Z1, Z2, …, Zk линейно выражается через X1, X2, …, Xk.

Система векторов X1, X2, …, Xk называется линейно зависимой, если существует равная нулю линейная комбинация d1X1+d2X2, …, dkXk = 0 этих векторов, в которой по крайней мере один из коэффициентов d1, d2, …, dk отличен от нуля.

Векторы X1, X2, …, Xn линейно зависимы тогда и только тогда, когда хотя бы один из них линейно выражается через остальные.

В геометрическом смысле, если вектор X1 линейно выражается через X2, то они коллинеары. Если начала таких векторов расположены в одной точке, то векторы лежат на одной прямой.

Если имеется три линейно зависимых вектора: X1, X2, X3, то они компланарны: если их начала расположены в одной точке, то векторы лежат в одной плоскости.

Допустим, что система Y1, Y2, … Yi линейно выражается через систему X1, X2, …, Xk и число i векторов в ней больше числа k векторов другой системы. Тогда векторы системы Y1, Y2, … Yi линейно зависимы.

Максимальной линейно независимой подсистемой системы X1, X2, …, Xk называется любой набор векторов из этой системы, удовлетворяющий следующим условиям:

- векторы этого набора линейно независимы;

- всякий вектор из системы X1, X2, …, Xk линейно выражается через векторы этого набора.

Все максимальные линейно независимые подсистемы данной системы векторов содержат одно и то же число векторов. И это число векторов называется рангом системы X1, X2, …, Xk.

Если система X1, X2, …, Xk линейно независима, то её любая максимальная линейно независимая подсистема совпадает с ней самой. Поэтому система X1, X2, …, Xk является линейно независимой в том и только том случае, когда ранг r этой системы равен числу k векторов в ней.

Предположим, что заданы две системы n-мерных векторов: X1, X2, …, Xk и Y1, Y2, …, Yk.

Эти системы называются эквивалентными, если система X1, X2, …, Xk линейно выражается через систему Y1, Y2, …, Yk и наоборот. Причём, эквивалентные системы могут содержать разное число векторов, однако ранги этих систем всегда одинаковы.

Если удалить из системы векторов X1, X2, …, Xk один из векторов, который является линейной комбинации остальных векторов системы, то получится новая система, эквивалентная исходной. То же самое произойдёт, если один из векторов системы умножить на число отличное от нуля, или прибавить к одному из векторов линейной комбинации остальных векторов системы.

Зададим систему m векторов k-мерного векторного пространства: A1, A2, …, Am

Координаты каждого из векторов располагаем в строку и нумеруем двумя индексами.

Система m векторов k-мерного векторного пространства
Система m векторов k-мерного векторного пространства

Составим из координат векторов системы матрицу:

Матрица из координат векторов
Матрица из координат векторов

Ранг системы векторов равен рангу матрицы, составленной из координат этих векторов.

При транспонировании матрицы её ранг не меняется. Из этого свойства имеется ряд следствий:

  1. Ранг системы векторов-строк матрицы равен рангу системы её векторов-столбцов и равен рангу этой матрицы.
  2. Ранг матрицы не меняется при перестановке её столбцов.
  3. Ранг матрицы не меняется, если удалить из неё столбец, все элементы которого равны нулю.
  4. Ранг матрицы не меняется, если из неё удалить столбец, являющийся линейной комбинацией остальных её столбцов.
  5. Ранг матрицы не меняется при умножении произвольного её столбца на любое отличное от нуля число.
  6. Ранг матрицы не меняется, если к любому её столбцу прибавить произвольную линейную комбинацию остальных столбцов этой матрицы.

В n-мерном векторном пространстве любые n+1 векторов линейно зависимы.

Система из n векторов n-мерного векторного пространства линейно независима тогда и только тогда, когда определитель, составленный из координат этих векторов, отличен от нуля. Отсюда следует, что в n-мерном пространстве могут существовать n линейно независимых векторов.

Набор любых n линейно независимых векторов n-мерного векторного пространства называется базисом этого пространства.

Отметим, что n векторов в n-мерном векторном пространстве образуют базис тогда и только тогда, когда отличен от нуля определитель, составленный из их координат.

Пример.
Рассмотрим систему система n векторов n-мерного векторного пространства

Система векторов
Система векторов

Определитель, составленный из координат этих векторов равен единице:

-27

Следовательно эта система векторов образует базис.

Всякий вектор n-мерного векторного пространства разлагается, и притом единственным образом, по векторам базиса.

Предположим, что в n-мерном векторном пространстве задан базис L1, L2, …, Ln. Выберем произвольный вектор x этого пространства и разложим его по векторам базиса:

X=x1L1+x2L2+...+xnLn

Числа x1, x2, …, xn, участвующие в данном разложении вектора X по базису L1, L2, …, Ln, называются координатами этого вектора в данном базисе. Один и тот же вектор в разных базисах имеет разные координаты.

Пример.
Дан базис L1=(2, 3), L2=(1, -1) в двумерном векторном пространстве. Требуется найти координаты вектора X=(1, -6) в этом базисе.

Решение.

Обозначим координаты вектора X в базисе L1, L2 через x1 и x2. Это значит, что

X = x1L1+x2L2 (1)

Получим: x1L1+x2L2 = (2x1+x2; 3x1-x2)

Исходя из определения равенства векторов можно найти, что выполнение равенства (1) эквивалентно выполнению двух равенств: 2x1+x2=1 и 3x1-x2=-6.

Их можно рассматривать как систему из двух уравнений с двумя неизвестными x1 и x2. Решая эту систему уравнений, найдём, что x1=-1, x2=3. Следовательно, координатами вектора x в данном базисе L1, L2 служат числа -1 и 3.

В произвольном базисе линейные действия над векторами сводятся к соответствующим действиям над их координатами.

Помимо линейных операций над матрицами, определяется операция умножения.

Произведением матрицы A из m строк и h столбцов на матрицу B из h строк и k столбцов называется матрица C=AB, имеющая m строк и k столбцов, элемент cij которой, расположенный в i-й строке и j-м столбце, равен сумме произведений элементов i-й строки матрицы A на соответствующие элементы j-го столбца матрицы B, т. е. находится по формуле:

Формула вычисления элемента матрицы C равной произведению матриц A и B
Формула вычисления элемента матрицы C равной произведению матриц A и B

Подчеркнём, что о произведении матриц AB можно говорить только в том случае, когда число столбцов матрицы A равно числу строк матрицы B. Следовательно, может быть и так: произведение матриц AB имеет смысл, а произведение матриц BA смысла не имеет.

Примеры.

Примеры произведения матриц разной размерности
Примеры произведения матриц разной размерности

Пусть

Тогда
Тогда
Даже для квадратных матриц произведение AB может не равняться произведению BA
Даже для квадратных матриц произведение AB может не равняться произведению BA

Используя понятие произведения матриц, можно систему уравнений записать в матричной форме записи равенств:

где A- матрица коэффициентов aij, Y — матрица переменных yij.
где A- матрица коэффициентов aij, Y — матрица переменных yij.

Для произведения матриц остаются в силе следующие арифметики:

1. Распределительный закон:

(A+B)C= AC+BC

C(A+B)=CA+CB

2. Сочетательный закон:

(AB)C = A(BC)

Определитель произведения двух квадратных матриц равен произведению определителей этих матриц: D(AB) = D(A)D(B).

Среди квадратных матриц особую роль играет матрица все элементы которой, расположенные на главной диагонали, равны единице, а остальные — нулю. В результате умножения матрицы E на любую квадратную матрицу A порядка n вновь получается та же матрица.

Матрица E называется единичной.
Матрица E называется единичной.

Матрица B называется обратной для матрицы A, если их произведение равно единичной матрице:

Если матрица A имеет обратную, то её определитель не равен нулю. Это условие является достаточным.
Если матрица A имеет обратную, то её определитель не равен нулю. Это условие является достаточным.

Пример.
Пусть дана матрица:

-35

Алгебраические дополнения соответствующих элементов определителя D(A) равны:

-36

Матрица A’, составленная из этих алгебраических дополнений называется присоединённой к матрице A:

-37

Для любой квадратной матрицы A порядка n выполняется соотношение: AA’=A’A=dE,

в котором A’ — присоединённая к A матрица, d — определитель матрицы A, а E — единичная матрица того же порядка n.

Если определитель d=D(A) матрицы A не равен нулю, то матрица имеет обратную матрицу B, которая находится по формуле: B=1/d A’, где A’ — матрица, присоединённая к A.

Для того, чтобы матрица A имела обратную, необходимо и достаточно, чтобы её определитель D(A) был не равен нулю.

Системы линейных алгебраических уравнений.

Теория определителей и теория векторных пространств широко используются при изучении систем линейных алгебраических уравнений.

Уравнение относительно неизвестных x называется линейным, если его его можно записать в виде: a1x1+a2x2+...+ anxn =b, где a и b — произвольные действительные числа.

Набор значений x1=d1, x2=d2, …, xn=dn удовлетворяет заданному уравнению, если в результате подстановки этих значений неизвестных в данное уравнение оно превратится в арифметическое тождество.

Пусть задана система m линейных уравнений относительно неизвестных x1, x2, …, xn:

-38

Где уравнения системы пронумерованы числами 1, 2, …, m. Первый индекс коэффициентов при неизвестных является номером уравнения, в котором содержится данный коэффициент, а второй — номером соответствующей неизвестной.

Сведём коэффициенты при неизвестных в системе в матрицу:

Если матрицу U пополнить столбцов свободных членов, то получим новую матрицу:
Если матрицу U пополнить столбцов свободных членов, то получим новую матрицу:
Такая матрица называется расширенной матрицей системы.
Такая матрица называется расширенной матрицей системы.

Используя понятие произведения матриц, систему (1) можно кратко записать в матричной форме: UX=B, где U- матрица системы, X- матрица-столбец из неизвестных, а B- матрица-столбец свободных членов:

-41

Определение: совокупность чисел d1, d2, …, dn называются решением системы (1), если в результате замены неизвестных x1, x2, …, xn соответствующими числами d1, d2, …, dn все уравнения системы превратятся в арифметические тождества.

Система (1) называется совместной, если она имеет по крайней мере одно решение. В ином случае система называется несовместной.

Матрица системы, которая содержит число уравнений равное числу неизвестных имеет k строк и k столбцов., т. е. является квадратной матрицей k-го порядка. Определитель этой матрицы называется определителем системы D.

Если заменить произвольный столбец Aj в определителе D, составленный из коэффициентов при неизвестных, на столбец B, составленный из свободных членов системы, получится новый определитель Dj(B).

-42

Согласно теореме Крамера, если определитель D системы уравнений отличен от нуля, то эта система совместна и имеет единственное решение. Это решение даётся следующими значениями неизвестных:

-43

Если использовать матричную форму записи системы уравнений: UX=B, то решение можно получить через обратную матрицу: X=U`B.

Теорема Крамера даёт возможность решить систему линейных уравнений в случае, когда число уравнений равно числу неизвестных и определитель системы отличен от нуля.

Если же нарушается хотя бы одно из этих условий, теорема Крамера неприменима. В то же время в задачах линейного программирования часто встречаются как раз такие системы, в которых эти условия нарушаются.

Первым вопросом, возникающим при изучении таких систем является вопрос о её совместности. Ответ на него даёт теорема Кронекера-Капелли:
для совместности системы линейных алгебраических уравнений необходимо и достаточно, чтобы ранг матрицы системы равнялся рангу расширенной матрицы этой системы.

Т.е., если ранг матрицы системы меньше ранга расширенной матрицы, то система несовместна, а если равен ему, то совместна.

Решение всякой системы линейных алгебраических уравнений начинается с выяснения вопроса о её совместности. С этой целью необходимо подсчитать и сравнить ранг r(U) матрицы U системы и ранг r(V) расширенной матрицы V.

По теореме Кронекера-Капелли, если r(U) не равен r(V), то система не совместна и вопрос о её решении не имеет смысла. Если же они равны, то система совместна.

Рангом совместной системы линейных алгебраических уравнений называется ранг её матрицы.

Если ранг системы равен числу неизвестных, то система имеет единственное решение. Если ранг системы меньше числа неизвестных, то система имеет бесчисленное множество решений.

Если совместная система линейных алгебраических уравнений имеет ранг r, а число неизвестных в ней n, то r неизвестных (базисных) линейно выражаются через n-r=k свободных неизвестных.

Система линейных уравнений называется однородной, если свободные члены во всех её уравнениях равны нулю.

-44

Однородная система всегда совместна. Она имеет ненулевое решение тогда и только тогда, когда её ранг меньше числа неизвестных.

Если в однородной системе число уравнений меньше числа неизвестных, то система имеет ненулевое решение.

Однородная система, в которой число уравнений равно числу неизвестных, имеет ненулевое решение тогда и только тогда, когда её определитель равен нулю.

Две системы линейных алгебраических уравнений с одним и тем же числом неизвестных называются равносильными или эквивалентными, если каждое решение первой системы является в то же время решением второй системы и каждое решение второй системы является решением первой.

Если некоторое линейное выражение: c1x1+c2x2+...+ckxk+c0 тождественно равно нулю, то каждый из коэффициентов c1, c2, …, ck, c0 в отдельности равен нулю.

Равносильные системы линейных алгебраических уравнений имеют одинаковые ранги.

Если из совместной системы линейных алгебраических уравнений удалось выразить p каких-либо неизвестных через остальные q=n-p неизвестных, то ранг r этой системы не меньше, чем p, т. е. r>=p.

Элементы аналитической геометрии в n-мерном пространстве.

Предположим, что на плоскости или в пространстве введена декартова прямоугольная система координат. Тогда, как известно из курса аналитической геометрии, координаты всякой точки численно совпадают с координатами её радиус-вектора. Обратно, если на плоскости или в пространстве задан произвольный вектор, то его координаты численно равны координатам некоторой точки. Эта точка является концом данного вектора, если начало его поместить в начале координат.

Рассмотрим теперь n-мерное векторное пространство R, и пусть вектор x из этого пространства имеет координаты (x1,x2,…,xn).

По аналогии с плоским и пространственным случаями естественно считать, что и в n-мерном вектороном пространстве координаты (x1,…, xn) произвольного вектора X являются в тож же время координатами некоторой точки M пространства R. Вектор X назовём радиус-вектором точки M.

Всякий упорядоченный набор (x1,…, xn) из произвольных n действительных чисел определяет некоторый вектор x пространства R, а поэтому некоторую точку. Совокупность всех введённых таким путём точек n-мерного векторного пространства называется n-мерным точечным (или аффинным) пространством T. Пространства R и T различают потому, что объектами первого пространства являются векторы, а второго — точки.

Точка O с координатами 0, …, 0 называется началом координат. Ей отвечает радиус-вектор, все координаты которого — нули, т. е. нулевой вектор.

Геометрическое место точек M(0,…, 0, xk, 0, …, 0), у которых все координаты, кроме k-й равны 0, а xk произвольна, называется координатной осью xk. Следовательно, в n-мерном пространстве T имеется n координатных осей: оси x1, x2, …, xn.

Совокупность точек N(x1,…,xk-1, 0, xk+1, …, xn) пространства T, все координаты которых, кроме k-й принимают произвольные значения, а xk=0, называется координатной гиперплоскостью xk. Следовательно, в n-мерном пространстве T имеется n координатных гиперплоскостей; каждая из них определяется одним из условий: x1=0,…, xn=0.

Определение: гиперплоскостью в n-мерном пространстве T называется геометрическое место точек, координаты которых удовлетворяют линейному уравнению:

-45

где ai(i=0, 1, …, n) — произвольные (но постоянные для данной гиперплоскости) действующие числа.

Рассмотрим теперь две гиперплоскости:

-46

Множество точек, принадлежащих как первой, так и второй гиперплоскостям, называется их пересечением. Другими словами, пересечение гиперплоскостей состоит из всех таких точек, чьи координаты удовлетворяют одновременно обоим уравнениям, т. е. являются решениями данной системы уравнений.

Две гиперплоскости не пересекаются, если не существует ни одной точки, одновременно принадлежащей обеим гиперплоскостям.

Две гиперплоскости не пересекаются в том и только том случае, когда коэффициенты при соответствующих неизвестных пропорциональны, а свободные члены находятся в ином отношении:

-47

Уравнения (1) и (2) определяют одну и ту же гиперплоскость в том и только в том случае, когда выполняется условие:

-48

Две гиперплоскости называются параллельными, если они не пересекаются или совпадают.

Две гиперплоскости (1) и (2) параллельны тогда и только тогда, когда коэффициенты при соответствующих неизвестных в их уравнениях пропорциональны, т. е.:

-49

Рассмотрим на плоскости две точки M1 и M2 и их радиус-векторы r1=OM1 и r2=OM2. Вектор M1M2=r1-r2. Пусть t- произвольное число между нулём и единицей:0<=t<=1. Если умножить вектор M1M2 на t, то получим вектор p=tM1M2, коллинеарный вектору M1M2, направленный в ту же сторону, что и M1M2, но имеющий длину меньшую чем M1M2. Если начало p поместить в точку M1, то его конец попадёт внутрь отрезка M1M2. Когда t пробегает значения от 0 до 1, конец вектора r точки M пробегает весь отрезок M1M2. Радиус-вектор r любой точки M, лежащей на отрезке M1M2, находится по формуле:

r=(1-t)r1+tr2, где 0<=t<=1. (3)

Эти рассуждения без всяких изменений переносятся со случая плоскости на случай трёхмерного пространства. Поэтому совершенно естественно считать, что и в n-мерном пространстве радиус-вектор r произвольной точки M отрезка M1M2 находится по указанной формуле.

Надо понимать, что нам, вообще говоря, неизвестно, что называть отрезком в n-мерном пространстве. В силу этого, по определению, отрезком M1M2 называют совокупность точек M чьи радиусы-векторы r находят по формуле (3).

Совокупность точек n-мерного пространства T называется выпуклым телом, если наряду с любыми двумя его точками M1 и M2 к этой совокупности принадлежат и все точки отрезка M1M2.

Примерами выпуклых фигур на плоскости могут служить круг, сектор, треугольник. Примерами выпуклых тел в пространстве могут служить шар, конус, призма и пирамида, в основании которых лежит выпуклый многоугольник.

Пересечением тел называется множество точек, принадлежащих каждому из этих тел.

Пересечение любого числа выпуклых тел является также выпуклым телом.

Пусть нам задана линейная функция F относительно переменных x1, …, xn:

-50

Обычно линейную функцию F называют линейной формой.

Переменные величины x1, …, xn можно считать координатами точки M n-мерного пространства T, и поэтому F можно толковать как функцию координат точки M(x1,…,xn)

Возьмём в пространстве произвольную точку M0(y1, …, yn) подставим её координаты в выражение (4) для формы F. Тогда функция F примет определённое численное значение:

Число F0 называется значением формы F в точке M0 и обозначается F0=F(M0).
Число F0 называется значением формы F в точке M0 и обозначается F0=F(M0).

Выберем теперь произвольное число c и рассмотрим геометрическое место точек, в которых форма F равна числу c. Координаты любой точки M этого геометрического места удовлетворяют уравнению:

-52

Уравнение (6) определяет некоторую гиперплоскость.

Гиперплоскость (6) называется гиперплоскостью равных значений формы (4)

Две гиперплоскости равных значений, отвечающие разным значениям c не пересекаются. Таким образом форма F определяет целое семейство параллельных гиперплоскостей — гиперплоскостей равных значений этой формы.

Во всех точках M гиперплоскости (6) форма F принимает одно и то же значение, равное c: F(M)=c. В то же время при переходе от точек одной гиперплоскости к точкам другой значение формы F меняется.

Пусть в плоскости дана прямая. Она делит плоскость на две полуплоскости. Спросим себя: как узнать, принадлежит ли заданная пара точек к одной и той же или к различным полуплоскостям? Ответить на этот вопрос можно так: две точки принадлежат одной полуплоскости тогда, когда отрезок, их соединяющий, не пересекает данной прямой. Если же этот отрезок пересекает данную прямую, то точки лежат в разных полуплоскостях.

Точно так же можно поступить в трёхмерном пространстве для того, чтобы узнать, когда пара точек лежит по одну или по разные стороны от заданной плоскости.

Совокупность всех точек пространства T, не лежащих на гиперплоскости П, можно разбить на две части так, что будут выполнены следующие условия: отрезок, соединяющий любую пару точек из одной и той же части, не пересекает гиперплоскости П. Отрезок, соединяющий любую пару точек из разных частей, обязательно пересекает гиперплоскость П.

Опираясь на данную теорему можно сказать, что заданием гиперплоскости П всё пространство T разбивается на две части. Эти части естественно назвать полупространствами, ограниченными гиперплоскостью П, причём гиперплоскость П относится как к одному, так и к другому полупространствам.

Полупространство, ограниченное любой гиперплоскостью П, является выпуклым телом.

Пересечение любого числа полупространств, ограниченных различными гиперплоскостями, является выпуклым телом.

Предположим, что нам задано некоторое линейное неравенство относительно переменных x1, …, xn. Его всегда можно записать в виде:

-53

Как и прежде, величины x1, …, xn будем толковать как координаты точки пространства T. Дадим следующее определение: совокупность точек пространства T, координаты которых удовлетворяют некоторому неравенству, называются областью решений данного неравенства.

Областью решений линейного неравенства является полупространство.

В качестве примера найдём на плоскости (x1, x2) область решений неравенства x1+x2-1>=0.

Заменяя неравенство на равенство, получим, уравнение прямой x1+x2=1. Эта прямая делит всю плоскость на две полуплоскости. Та из них, которая не содержит начала координат, и есть область решений заданного неравенства. Роль гиперплоскости П здесь играет прямая x1+x2=1. Заметим, кстати, что вторая полуплоскость есть область решений неравенства x1+x2<=1.

Перейдём теперь от одного линейного неравенства к системе таких неравенств:

-54

Областью решений системы неравенств называется множество точек пространства T, координаты которых удовлетворяют каждому из неравенств системы.

Область решений системы линейных неравенств есть пересечение некоторого числа полупространств.

Если система (7) линейных неравенств несовместна, то пересечение соответствующих полупространств не содержит ни одной точки.

Пересечение любого числа полупространств есть выпуклое тело. Такого рода тело называется выпуклым многогранником.

Отсюда мы можем прийти к выводу, что областью решений совместной системы линейных неравенств является выпуклый многогранник. Он ограничен гиперплоскостями, уравнения которых получается из неравенств системы заменой в них знаков неравенства на знаки равенства. Сам многогранник представляет собой пресечение полупространств, ограниченных указанными гипрплоскостями.

На этом всё. В следующей статье будет рассмотрено применение python к решению задач линейной алгебры с использованием математического пакета для научных вычислений NumPy.

FUSION BRAIN: Матрица
FUSION BRAIN: Матрица

Использованные источники:

1. Ф.И. Карпалевич и Л.Е. Садовский «Элементы линейной алгебры и линейного программирования» (страницы 7-125).
2. ML | Linear Algebra Operations
(
https://www.geeksforgeeks.org/ml-linear-algebra-operations/)
3. Linear Algebra for Machine learning
(
https://www.javatpoint.com/linear-algebra-for-machine-learning)

Наука
7 млн интересуются