6. Инициализация весов#
Important
Надо доделать задачу про часть с ReLU
Маша использует для активации симметричную функцию. Для инициализации весов она хочет использовать распределение
а) Покажите, что это будет приводить к затуханию дисперсии при переходе от одного слоя к другому.
Решение
Найдём дисперсию веса
Мы используем линейный слой с симметричной функцией активации. Мы можем сгенеировать веса так, чтобы они были независимы друг от друга и от наблюдений. Наблюдения считаем независимыми друг от друга. Тогда
Мы воспользовались тут формулой для дисперсии произведения независимых случайных величин.
Наша функции активации симметрична, значит
Получается, что
Дисперсия будет падать при переходе от выхода предыдущего слоя к выходу нового слоя в три раза.
б) Какими нужно взять параметры равномерного распределения, чтобы дисперсия не затухала?
Решение
Нам надо, чтобы
Если речь идёт про нормальное распределение, нам подойдёт
в) Маша хочет инициализировать веса из нормального распределения. Какими нужно взять параметры, чтобы дисперсия не затухала?
Решение
По аналогии с предыдущим пунктом, нам нужна инициализация
г) При прямом распространении ошибки на вход в нейрон идёт
Количество весов от слоя к слою сильно колеблется, получается если мы будем пытаться делать дисперсию неизменной при прямом шаге, она будет либо расти либо падать при обратном. Невозможно пооддерживать обе дисперсии неизменными. Нужен компромис между этими шагами. Предложите его.
Решение
При прямом шаге надо поддерживать дисперсию
Можно инициализировать веса из распределения с дисперсией