1. Сигмоида

1. Сигмоида#

Сигмоида – это классическая функция активации. У неё есть куча проблем, из-за которых её нужно очень аккуратно использовать в глубоких нейронных сетях. Давайте обсудим эти проблемы и поймём, как правильно её использовать.

Любую \(s\)-образную функцию называют сигмоидой. Наиболее сильно прославилась под таким названием функция

\[ \sigma(t) = \frac{e^t}{1 + e^t} = \frac{1}{1 + e^{-t}}. \]

Слава о ней добралась до Маши и теперь она хочет немного поисследовать её свойства.[1]

а) Что происходит при \(t \to +\infty\)? А при \(t \to -\infty\)?

б) Как связаны между собой \(\sigma(t)\) и \(\sigma(-t)\)?

в) Как связаны между собой \(\sigma(t)\) и \(\sigma'(t)\)?

г) Найдите \(\sigma(0)\) и \(\sigma'(0)\).

д) Найдите обратную функцию \(\sigma^{-1}(t)\)

е) Как связаны между собой \([\ln \sigma(t)]'\) и \(\sigma(-t)\)?

ё) Постройте графики функций \(\sigma(t)\) и \(\sigma'(t)\).

ж) Говорят, что сигмоида — это гладкий аналог единичной ступеньки. Попробуйте построить на компьютере графики \(\sigma(t), \sigma(10\cdot t), \sigma(100\cdot t), \sigma(1000\cdot t)\). Как они себя ведут?

з) Выпишите формулы для forward pass и backward pass через слой с сигмоидой.

и) Какое максимальное значение принимает производная сигмоиды? Объясните как это способствует затуханию градиента и параличу нейронной сети.

Решение

Проанализируем функцию

\[ f(\sigma) = \sigma \cdot (1 - \sigma) = \sigma - \sigma^2. \]

Это парабола. Её ветви смотрят вниз. Найдём её экстремум

\[ f'(\sigma) = 1 - 2\sigma = 0 \quad \Rightarrow \quad \sigma = 0.5 \]

Получается, что \(f(\sigma) \le 0.5 - 0.5^2 = 0.25\). Выходит, что производная сигмоиды принимает значение с отрезка \([0; 0.25].\) При шаге обратного распространения ошибки, мы умножаем уже накопившуюся производную на производную сигмоиды. Накопленная производная из-за этого уменьшается. Получается, что если нейросетка очень глубокая, до первых слоёв дойдёт очень маленькая производная. Веса будут двигаться на очень маленькие расстояния. Из-за этого обучение застопорится. Такая ситуация называется параличём нейронной сети либо проблемой затухания градиента (vanishing gradient problem).

Чтобы побороть проблему затухающих градиентов, надо модернизировать архитектуру нейронной сети так, чтобы не выскакивало затухающих производных. Из-за этого сигмоиду не используют в глубоких нейронных сетях и предпочитают ей другие функции активации.

Давайте ещё раз посмотрим на график сигмоиды и её производной.

Каждый нейрон в нашей сетке либо активируется либо нет. Когда нейрон обучился, он выплёвывает значения близкие либо к единице либо к нулю. Производная на краях сигмоиды оказывается очень маленькой. Получается, что по мере обучения нейронной сети, проблема затухающих градиентов обостряется.

Ужаснее всего то, что на графике с функцией потерь всё выглядит так, будто обучение сошлось. Функция стабилизируется и прекращает убывать.

к) Сигмоида не центрированна относительно нуля. Из-за этого градиентный спуск работает плохо. Объясните, почему так происходит.