6. Метод максимального правдоподобия#
Упражняемся в матричном методе максимального правдоподобия. Допустим, что выборка размера \(n\) пришла к нам из многомерного нормального распределения с неизвестными вектором средних \(\mu\) и ковариационной матрицей \(\Sigma\).
В этом задании нужно найти оценки максимального правдоподобия для \(\hat \mu\) и \(\hat \Sigma\). Обратите внимание, что выборкой здесь будет не \(x_1, \ldots, x_n\), а
Решение
Плотность распределения для \(m-\)мерного вектора \(y\) будет выглядеть как
В силу того, что все наблюдения независимы, функция правдоподобия для выборки объёма \(n\) примет вид:
Прологарифмировав правдоподобие, получим
Нам нужно найти максимум этой функции по \(\mu\) и \(\Sigma\). Начнём с \(\mu\). Аргумент \(\Sigma\) будем считать константой. Обозначим такую функцию за \(f(\mu)\). Эта функция бьёт с множества векторов в множество скаляров. Значит дифференциал этой функции можно записать в виде:
Найдём этот дифференциал. Не будем забывать, что дифференциал от константы нулевой, а также что дифференциал суммы равен сумме дифференциалов
Первое слагаемое под суммой имеет размерность \(1 \times m \cdot m \times m \cdot m \times 1\). Это константа. Если мы протранспонируем константу, ничего не изменится. Обратим внимание, что матрица \(\Sigma\) симметричная и при транспонировании не меняется. Сделаем этот трюк
Получается, что \(f'(\mu) = \sum_{i=1}^n \Sigma^{-1} (x_i - \mu)\). Приравняв производную к нулю и домножив обе части уравнения слева на \(\Sigma\), получим оптимальное значению \(\mu\):
Не будем забывать, что в записях выше \(x\) и \(\mu\) были векторами-столбцами размерности \(m \times 1\). В итоговом ответе они также являются векторами-столбцами такой размерности.
Займёмся оценкой для \(\Sigma.\) Аргумент \(\mu\) будем считать константой. Обозначим такую функцию за \(f(\Sigma)\)
Эта функция бьёт с множества матриц в множество скаляров. Значит дифференциал этой функции можно записать в виде:
Начнём с первого слагаемого. Для него нам понадобится вспомнить как выглядит дифференциал для определителя
Теперь поработаем со вторым слагаемым. В нём нас интересует дифференциал обратной матрицы
Под знаком суммы размерность каждого слагаемого \(1 \times m \cdot m \times m \cdot m \times m \cdot m \times m \cdot m \times 1\). Это константа. Если мы возьмём от неё след, ничего не изменится. Взяв след, переставим внутри множители
Сумма следов – след суммы. Объединяем наши слагаемые в месте. В первом множитель \(n\) подменяем на сумму
Забираем себе из-под знака дифференциала производную. Под знаком суммы после транспонирования ничего не поменяется. Приравниваем производную к нулю, домножим справа каждое слагаемое на \(\Sigma\). На четвёртой строчке домножим слева на \(\Sigma\):
До оценок остался один шаг. Вспоминаем оценку для \(\mu\), подставляем её в уравнение и получаем, что
Не забываем, что \(x_i\) и \(\bar x\) – вектора размерности \(m \times 1\).