4. Квадратное уравнение#
Маша вместе с директором отдела по искусственному интеллекту Теслы Андреем Карпати[1]. ищет минимум функции \(f(x) = ax^2 + bx +c,\) где \(a > 0,\) методом градиентного спуска. Они стартуют из точки \(x_0\) и настолько ленивы, что не хотят делать больше одного шага. При каком значении длины шага \(\eta\) ребята за один шаг окажутся точно в точке минимума?
Решение
За один шаг нам надо попасть в вершину параболы, то есть
\[\begin{equation*}
\begin{aligned}
& \frac{-b}{2a} = x_0 - \eta \cdot f'(x_0) \\
& \frac{-b}{2a} = x_0 - \eta \cdot (2 a x_0 + b) \\
& \frac{b + 2 a x_0}{2a} = \eta \cdot (2 a x_0 + b) \\
& \eta = \frac{1}{2a} \\
\end{aligned}
\end{equation*}\]
О чём нам говорит это упражнение? Скорость обучения – очень важна. Если подобрать её правильно, мы можем довольно быстро оказаться в точке оптимума. Когда мы оптимизируем нейронные сети, скорость обучения важно подбирать. Для этого даже есть специальные утилиты, например LRFinder.