1. Учимся искать производные

1. Учимся искать производные#

Когда мы работаем с одномерными функциями, для поиска любых производных нам хватает небольшой таблицы со стандартными случаями и пары правил. Для случая матриц все эти правила можно обобщить, а таблицы дополнить специфическими функциями вроде определителя.

Удобнее всего оказывается работать в терминах «дифференциала» — с ним можно не задумываться о промежуточных размерностях, а просто применять стандартные правила.

Мы будем работать в этом конспекте со скалярами, векторами и матрицами. Нас будет интересовать, что именно мы дифференцируем, по чему мы дифференцируем и что получается в итоге.

Строчными буквами мы будем обозначать векторы-столбцы и константы. Заглавными буквами мы будем обозначать матрицы. Производная столбца — это столбец. Производная по столбцу — это столбец.

\[\begin{split} x = \begin{pmatrix}x_1 \\ \ldots \\ x_n \end{pmatrix} \qquad X = \begin{pmatrix}x_{11} & \ldots & x_{1n} \\ \ldots & \ddots & \ldots \\ x_{n1} & \ldots & x_{nn} \end{pmatrix}. \end{split}\]

Мы рассмотрим постепенно много разных входов и выходов, и получим таблицу из канонических случаев. По строчкам будем откладывать то, откуда бьёт функция, то есть входы. По столбцам будем откладывать то, куда бьёт функция, то есть выходы. Для ситуаций обозначенных прочерками обобщения получить не выйдет.

	скаляр	вектор	матрица
скаляр	\(f'(x) dx\)	\(\mathfrak{J} dx\)	–
вектор	\(\nabla_x f(x)^T dx\)	\(\mathfrak{J} dx\)	–
матрица	\(tr(\nabla_X f(X)^T dX)\)	–	–

Символом \(\nabla_x f\) обозначается градиент (вектор из производных). Символом \(\mathfrak{J}\) обозначена матрица Якоби. Символом \(H\) мы будем обозначать матрицу Гессе из вторых производных.

Найдём производную и дифференциал функции \(f(x) = x^2\), где \(x\) скаляр. Функция бьёт из скаляров в скаляры

\[ f(x) : \mathbb{R} \to \mathbb{R}. \]

Примером такой функции может быть \(f(x) = x^2\). Мы знаем, что по таблице производных \(f'(x) = 2x\). Также мы знаем, что дифференциал – это линейная часть приращения функции, а производная – это предел отношения приращения функции к приращению аргумента при приращении аргумента стремящемся к нулю.

Грубо говоря, дифференциал помогает представить приращение функции в линейном виде

\[ d{f(x)} = f'(x) dx. \]

Если мы находимся в какой-то точке \(x_0\) и делаем из неё небольшое приращение \(dx,\) то наша функция изменится примерно на \(df(x)\). Оказывается, что именно в терминах дифференциалов удобно работать с матричными производными.

Свойства матричных дифференциалов очень похожи на свойства обычных. Надо только не забыть, что мы работаем с матрицами.

\[\begin{equation*} \begin{aligned} & d{(XY)} = d{X}Y + X \cdot d{Y}, \quad d{X} \cdot Y \ne Y \cdot d{X} \\ & d{(\alpha X + \beta Y)} = \alpha d{X} + \beta d{Y} \\ & d{(X^T)} = (d{X})^T \\ & d{A} = 0, \quad A - \text{матрица из констант} \end{aligned} \end{equation*}\]

Чтобы доказать все эти свойства достаточно просто аккуратно расписать их. Кроме этих правил нам понадобится пара трюков по работе со скалярами. Если \(s\) — скаляр размера \(1 \times 1\), тогда \(s^T = s\) и \(tr(s) = s\), где \(tr\) — операция взятия следа матрицы.

С помощью этих преобразований мы будем приводить дифференциалы к каноническому виду и вытаскивать из них производные.

а) Найдите производную \(\nabla_x f(x)\), где \(f(x) = a^T x\), где \(a\) и \(x\) векторы размера \(n \times 1\)

Решение

Рассмотрим вторую ситуацию из таблицы, функция бьёт из векторов в скаляры. Это обычная функция от нескольких аргументов

\[ f(x) : \mathbb{R}^n \to \mathbb{R}. \]

Мы уже умеем брать такие производные. Если мы хотим найти производную функции \(f(x_1, x_2, \ldots, x_n)\), нам надо взять производную по каждому аргументу и записать их все в виде вектора. Такой вектор называют градиентом.

\[\begin{split} \nabla_x f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2} \\ \ldots \\ \frac{\partial f(x)}{\partial x_n} \end{pmatrix} \end{split}\]

Если умножить градиент на вектор приращений, у нас получится дифференциал

\[\begin{multline*} d{f(x)} = \nabla_x f(x)^T dx = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1} & \frac{\partial f(x)}{\partial x_2} & \ldots & \frac{\partial f(x)}{\partial x_n} \end{pmatrix} \begin{pmatrix} dx_1 \\ dx_2 \\ \ldots \\ dx_n \end{pmatrix} = \\ = \frac{\partial f(x)}{\partial x_1} \cdot dx_1 + \frac{\partial f(x)}{\partial x_2} \cdot dx_2 + \ldots +\frac{\partial f(x)}{\partial x_n} \cdot dx_n. \end{multline*}\]

При маленьком изменении \(x_i\) на \(dx_i\) функция будет при прочих равных меняться пропорционально соответствующей частной производной. Посмотрим на конкретный пример, скалярное произведение. Можно расписать умножение одного вектора на другой в виде привычной нам формулы

\[\begin{equation*} \underset{[1 \times 1]}{f(x)} = \underset{[1 \times n]}{a^T} \cdot \underset{[n \times 1]}{x} = \begin{pmatrix} a_1 & a_2 & \ldots &a_n \end{pmatrix} \cdot \begin{pmatrix} x_1 \\ x_2 \\ \ldots \\ x_n \end{pmatrix} = a_1 \cdot x_1 + a_2 \cdot x_2 + \ldots + a_n \cdot x_n. \end{equation*}\]

Из неё чётко видно, что \(\frac{\partial f(x)}{\partial x_i} = a_i\). Увидев это мы можем выписать градиент функции

\[\begin{split} \nabla_x f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2} \\ \ldots \\ \frac{\partial f(x)}{\partial x_n} \end{pmatrix} = \begin{pmatrix} a_1 \\ a_2 \\ \ldots \\ a_n \end{pmatrix} = a, \end{split}\]

теперь можно записать дифференциал

\[\begin{multline*} df(x) = a^T dx = \frac{\partial f(x)}{\partial x_1} \cdot dx_1 + \frac{\partial f(x)}{\partial x_2} \cdot dx_2 + \ldots +\frac{\partial f(x)}{\partial x_n} \cdot dx_n = \\ = a_1 \cdot dx_1 + a_2 \cdot dx_2 + \ldots + a_n \cdot dx_n. \end{multline*}\]

В то же самое время можно было бы просто воспользоваться правилами нахождения матричных дифференциалов

\[ df(x) = dx{a^T x} = a^T dx = \nabla f(x)^T dx, \]

откуда \( \nabla_x f(x) = a\). Производная найдена. При таком подходе нам не надо анализировать каждую частную производную по отдельности. Мы находим одним умелым движением руки сразу же все производные.

б) Найдите первую и вторую производные функции \(f(x) = x^T A x\), где \(x\) вектор размера \(n \times 1\), \(A\) матрица размера \(n \times n\)

в) Найдите производную \(\nabla_x f(x)\), где \(f(x) = \ln(x^T A x)\), где \(x\) вектор размера \(n \times 1\), \(A\) матрица размера \(n \times n\)

г) Найдите производную \(f(x) = a^TXAXa\), где \(x\) вектор размера \(n \times 1\), \(A\) матрица размера \(n \times n\)

д) Найдите производную \(f(x) = x x^T x\), где \(x\) вектор размера \(n \times 1\)

В нашей таблице. осталось ещё несколько ситуаций, которые остались вне поля нашего зрения. Давайте их обсудим более подробно. Например, давайте посмотрим на ситуацию когда отображение бьёт из матриц в вектора

\[ f(X) : \mathbb{R}^{n \times k} \to \mathbb{R}^m. \]

Тогда \(X\) матрица, а \(f(X)\) вектор. Нам надо найти производную каждого элемента из вектора \(f(X)\) по каждому элементу из матрицы \(X\). Получается, что \(\frac{\partial f}{\partial X}\) – это трёхмерная структура. Обычно в таких ситуациях ограничиваются записью частных производных либо прибегают к более сложным, многомерным методикам. Мы такие ситуации опустим.