5. ReLU и её друзья

5. ReLU и её друзья#

Функция \(f(t) = ReLU(t) = \max(t, 0)\) называется ReLU.

а) Как выглядит производная ReLU? Что происходит с ReLU при обратном распространении ошибки? Возможен ли в случае ReLU паралич нейросети? Если да, как его избежать?

б) Как у ReLU дела с центированием относительно нуля?

Функция Leaky ReLU (протекающий ReLU) называется

\[\begin{split} LReLU(t) = \begin{cases} t, &t \ge 0 \\ \alpha \cdot t, &t < 0. \end{cases} \end{split}\]

в) Чем такая функция активации лучше, чем ReLU?

Функцией ELU (Exponential Linear Unit) называется

\[\begin{split} ELU(t) = \begin{cases} t, &t \ge 0 \\ \alpha \cdot (e^t - 1), &t < 0. \end{cases} \end{split}\]

г) Как выглядит шаг обратного распространения ошибки через ELU? Чем такая функция активации лучше, чем ReLU?

Функцией SELU (Scaled Exponential Linear Units activation) называется

\[\begin{split} f(t) = \lambda \cdot \begin{cases} t, t \ge 0 \\ \alpha \cdot (e^t - 1), t < 0. \end{cases} \end{split}\]

В качестве констант авторы статьи про эту функцию предлагают использовать \(\alpha = 1.67733, \lambda = 1.0507\). Они захардкожены.

д) Когда мы обучаем линейную модель градиентным спуском, мы нормализуем перед этим данные. Зачем мы это делаем? Как думаете, почему эта функция называется нормализованной (scaled)?

е) В 2017 году учёные из Google Google Brain хитрым автоматическим поиском на основе RNN нашли функцию активации Swish.[3]

\[ Swish(t) = t \cdot \sigma(\beta \cdot t). \]

Параметр \(\beta\) здесь обучается. После того, как эту функцию нашли, учёные почесали репу и попробовали проинтерпретировать, почему она вообще работает.

Мы тут тоже не лыком шиты и своего рода учёные. Повторите путь авторов статьи и проинтерпретируйте, что делает эта функция активации.

Что происходит с функцией активации при \(\beta \to 0\) и \(\beta \to \infty\)? За что отвечает параметр \(\beta\)?

Конечно же, на этом учёные не остановились и продолжили придумывать более интересные функции активации. В 2019 году они опять начали заниматься перебором и получили соперника Swish под названием Mish.[4]

В 2021 году учёные попробовали обобщить все эти функции, а потом получить из этого обобщения что-нибудь интересное. Так родилось целое семейство саморегулирующихся функций активации, ACON (Activate or Not), а для исследования открылась целая область.[5]

Это, конечно всё офигенно, а что делать на практике? Начните с ReLU, аккуратно инициализируйте веса и настраивайте скорость обучения. Дальше имеет смысл попробовать ELU/SELU. Если есть время на эксперименты, можно попробовать что-то более экстравагантное. Довольно приятно заменить одну функцию активации на другую и выиграть в качестве целый процент. Ни в коем случае не используйте тангенс и сигмоиду.

Также почитайте небольшой обзор функций активации.[6]