PYTORCH中的学习率怎么理解
当学习率设置的过小时,收敛过程将变得十分缓慢。且容易陷入局部最优解出不来。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。
其实可以理解为,最优解收敛时的步长单位,如果你希望结果更精确一些,就应该把学习率调低,当然这样样的结果是训练时间的增长。
当学习率设置的过小时,收敛过程将变得十分缓慢。且容易陷入局部最优解出不来。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。
其实可以理解为,最优解收敛时的步长单位,如果你希望结果更精确一些,就应该把学习率调低,当然这样样的结果是训练时间的增长。