3. Weight Decay

3. Weight Decay#

В случае \(l_2\)-регуляризации, к базовой функции потерь добавляют дополнительное слагаемое и вместо функционала

[ L(w) = \frac{1}{n} \cdot \sum\limits_{i=1}^{n} \nabla_w L(y_i, x_i, w) ]

оптимизируют функционал

[ Q_\lambda(w) = L(w) + \frac{1}{2}\lambda \cdot ||w||^2_2. ]

Будем считать, что регуляризатор наложен на все веса нейронной сети. Обычно регуляризатор добавляют к функции потерь, чтобы избежать переобучения. Градиентный спуск можно переписать с учётом регуляризатора немного в другом виде. Такой вид называется weight decay.

В пакетах для обучения нейронных сеток у оптимизаторов обычно есть такой параметр. Давайте проделаем это переписывание для нескольких разных градиентных спусков.

а) Выпишите шаг momentum-SGD для такой модели. Выразите получившийся шаг в виде

[ w_t = g(\lambda) \cdot w_{t-1} - \eta_t \cdot h(\nabla_w L(w_{t-1})) ]

б) Выпишите шаг Adam для такой модели. Выразите получившийся шаг в виде

[ w_t = g(\lambda) \cdot w_{t-1} - \eta_t \cdot h(\nabla_w L(w_{t-1})) ]