2. Туда и обратно

2. Туда и обратно#

Маша хочет сделать шаг обратного распространения ошибки через рекуррентную ячейку для последовательности \(y_0 = 0, y_1=1, y_2 = -1, y_3 =2\). Скрытое состояние инициализировано как \(h_0 = 0\). Все веса инициализированы как \(0.5\). Во всех уравнениях, описывающих ячейку нет констант. В качестве функций активаций Маша использует \(ReLU\). В качестве функции потерь Маша использует \(MSE\).

а) Сделайте прямой шаг через ячейку. Для каждого элемента последовательности постройте прогноз. Посчитайте значение ошибки.

Решение

Рекуррентную сеть можно рассматривать, как несколько копий одной и той же сети, каждая из которых передает информацию последующей копии. Веса для всех копий одинаковые.

Когда мы строим прогнозы, мы движемся слева направо и сверху вниз. Чтобы сделать прямой шаг, нам нужно подставить соотвествуюшие значения в формулы пересчёта

\[\begin{equation*} \begin{aligned} h_t =& Relu(0.5 \cdot h_{t-1} + 0.5 \cdot y_{t-1})\\ \hat{y_t} =& Relu(0.5 \cdot h_t). \end{aligned} \end{equation*}\]

Тогда мы получим

\(t\)	\(0\)	\(1\)	\(2\)	\(3\)
\(h_t\)	\(0\)	\(0\)	\(0.5\)	\(0.375\)
\(\hat y_t\)	-	\(0\)	\(0.25\)	\(0.1875\)
\(y_t\)	\(0\)	\(1\)	\(-1\)	\(2\)
\(L_t\)	-	\(1\)	\(1.5625\)	\(3.285\)

Получаем итоговое значение ошибки нашего нейрона на всей последовательности

\[ L = L_1 + L_2 + L_3 = 1 + 1.5625 + 3.285 = 5.8475. \]

Именно его нам надо будет уменьшать в ходе обратного распространения ошибки.

б) Выпишите для рекуррентного нейрона производные функции ошибки по весам \(u,v,w\).

в) Сделайте шаг обратного распространения ошибки по весу \(u\)

г) Как изменится нейрон, если на вход в него будет идти не одна последовательность, а несколько?