3. Линейная регрессия#
Рассмотрим задачу линейной регресии
а) Найдите \(L(w)\), выведите формулу для оптимального \(w\).
Решение
Ради интереса убедимся, что перед нами в качестве функции потерь используется именно MSE, в качестве \(x_i\) будем обозначать \(i-\)ую строчку матрицы \(X\)
Найдём дифференциал для нашей функции потерь, держим в голове что производная берётся по вектору \(w\)
Тут мы воспользовались тем, что \( dw^T X^T (y - Xw)\) это скаляр и его можно транспонировать. Производная найдена.
При решении системы мы сделали предположение, что матрица \(X^TX\) обратима. Это так, если в матрице \(X\) нет линейно зависимых столбцов, а также наблюдений больше чем переменных.
б) Как выглядит шаг градиентного спуска в матричном виде?
Решение
Шаг градиентного спуска будет выглядеть как
Здесь \(\gamma\) — это скорость обучения. Приравняем производную к нулю, чтобы найти минимум для \(w\). Получается система уравнений
в) Найдите \(d^2L(w)\). Убедитесь, что мы действительно в точке минимума.
Решение
Найдём вторую производную
Выходит, что \(H = 2X^TX\). Так как матрица \(X^TX\) положительно определена, по критерию Сильвестра, мы находимся в точке минимума.
Матрица \(X^TX\) положительно определена по определению. Если для любого вектора \(v \ne 0\) квадратичная форма \(v^T X^TX v > 0\), матрица \(X^TX\) положительно определена. При перемножении \(Xv\) у нас получается вектор. Обозначим его как \(z\), значит \(v^T X^TX v = z^T z = \sum_{i=1}^n z_i^2 > 0\).
Выпишем в явном виде второй дифференциал
г) В случае Ridge-регрессии минимизируется функция со штрафом:
где \(\lambda\) — положительный параметр, штрафующий функцию за слишком большие значения \(w\). Как будут выглядеть \(dL(w)\), \(d^2L(w)\) и формулу для оптимального \(w\)?
Решение
Надо аккуратно проделать ровно то же самое, что мы сделали выше. Приведём тут основные формулы для расчётов.