2. Регуляризация

2. Регуляризация#

Important

Задачка не доделана. Надо доделать оставшиеся пункты, добавить сюда приём от Хидмана с CV-оценкой в Ridge за одну регрессию.

Маша ест конфеты и решает задачи по глубокому обучению. Число решённых задач \(y\) зависит от числа съеденных конфет \(x\). Если Маша ни съела ни одной конфеты, она не хочет заниматься глубоким обучением. Поэтому для прогнозирования числа решённых задач по числу съеденных конфет можно использовать линейную модель с одним признаком без константы \(y_i = w \cdot x_i.\)

Для оценки параметра \(w\) Маша использует целевую функцию

\[ Q(w) = \frac{1}{n}\sum_{i=1}^{n} (y_i - w x_i)^2 + \lambda w^2 \to \min_{w}. \]

а) Найдите оптимальное \(w\) при произвольном \(\lambda\).

б) Подберите оптимальное \(\lambda\) с помощью кросс-валидации leave one out («выкинь одного»). На первом шаге мы оцениваем модель на всей выборке без первого наблюдения, а на первом тестируем её. На втором шаге мы оцениваем модель на всей выборке без второго наблюдения, а на втором тестируем её. И так далее \(n\) раз. Чтобы найти \(\lambda_{CV}\) мы минимизируем среднюю ошибку, допущенную на тестовых выборках.

в) Найдите оптимальное значение \(w\) при \(\lambda_{CV}\), подобранном на предыдущем шаге.

г) Обычно, чтобы сделать loo-кросс-валидацию, мы оцениваем \(n-1\) модель, где \(n\) – число наблюдений. Для Ridge-регрессии можно сделать кросс-валидацию, оценив модель только один раз. Сможете придумать как?

д) Иногда при конструировании нейронной сети, накладывают регуляризацию на выход из нейрона. Как думаете, зачем это делают?