6. Инициализация весов

6. Инициализация весов#

Important

Надо доделать задачу про часть с ReLU

Маша использует для активации симметричную функцию. Для инициализации весов она хочет использовать распределение

wiU[1nin;1nin].

а) Покажите, что это будет приводить к затуханию дисперсии при переходе от одного слоя к другому.

Решение

Найдём дисперсию веса

Var(wi)=112(1nin+1nin)2=13nin

Мы используем линейный слой с симметричной функцией активации. Мы можем сгенеировать веса так, чтобы они были независимы друг от друга и от наблюдений. Наблюдения считаем независимыми друг от друга. Тогда

Var(hi)=Var(i=1ninwixi)==i=1ninVar(wixi)==i=1ninE2(xi)Var(wi)+Var(xi)E2(wi)+Var(xi)Var(wi).

Мы воспользовались тут формулой для дисперсии произведения независимых случайных величин.

Наша функции активации симметрична, значит E(xi)=0. Будем инициализировать веса из распределения с нулевым средним, тогда E(wi)=0. Воспользуемся тем, что все слагаемые распределены одинаково, а их у нас nin штук

Var(hi)=i=1ninVar(xi)Var(wi)=ninVar(xi)Var(wi).

Получается, что

Var(hi)=ninVar(xi)13nin=13Var(xi).

Дисперсия будет падать при переходе от выхода предыдущего слоя к выходу нового слоя в три раза.

б) Какими нужно взять параметры равномерного распределения, чтобы дисперсия не затухала?

Решение

Нам надо, чтобы Var(hi)=Var(xi). Значит надо взять распределение с дисперсией 1nin.

Если речь идёт про нормальное распределение, нам подойдёт

wiU[3nin;3nin].

в) Маша хочет инициализировать веса из нормального распределения. Какими нужно взять параметры, чтобы дисперсия не затухала?

Решение

По аналогии с предыдущим пунктом, нам нужна инициализация

wiN(0,1nin).

г) При прямом распространении ошибки на вход в нейрон идёт nin слагаемых. При обратном распространении ошибки на вход в нейрон идёт nout градиентов.

Количество весов от слоя к слою сильно колеблется, получается если мы будем пытаться делать дисперсию неизменной при прямом шаге, она будет либо расти либо падать при обратном. Невозможно пооддерживать обе дисперсии неизменными. Нужен компромис между этими шагами. Предложите его.

Решение

При прямом шаге надо поддерживать дисперсию 1nin. При обратном надо поддерживать дисперсию 1nout.

Можно инициализировать веса из распределения с дисперсией 2nin+nout. Такая инициализация назвывается инициализацией Ксавие (или Глорота).[1]