6. Инициализация весов

6. Инициализация весов#

Important

Надо доделать задачу про часть с ReLU

Маша использует для активации симметричную функцию. Для инициализации весов она хочет использовать распределение

\[ w_i \sim U \left[ - \frac{1}{\sqrt{n_{in}}}; \frac{1}{\sqrt{n_{in}}} \right]. \]

а) Покажите, что это будет приводить к затуханию дисперсии при переходе от одного слоя к другому.

б) Какими нужно взять параметры равномерного распределения, чтобы дисперсия не затухала?

в) Маша хочет инициализировать веса из нормального распределения. Какими нужно взять параметры, чтобы дисперсия не затухала?

г) При прямом распространении ошибки на вход в нейрон идёт \(n_{in}\) слагаемых. При обратном распространении ошибки на вход в нейрон идёт \(n_{out}\) градиентов.

Количество весов от слоя к слою сильно колеблется, получается если мы будем пытаться делать дисперсию неизменной при прямом шаге, она будет либо расти либо падать при обратном. Невозможно пооддерживать обе дисперсии неизменными. Нужен компромис между этими шагами. Предложите его.