DAY20：学习率（下）

学习率

学习率为控制模型中梯度下降的速度，也有人称为步长。
公式：新权重 = 旧权重 - 学习率 * 梯度
learning rate的设置很重要，一般大家都依照经验去设置初始learning rate，0.01-0.001，但这也没有一定哪个比较好，都得去尝试。
当learning rate设置过小时，会导致模型学习收敛较慢，且容易过拟合。而设置过大时，会容易导致模型学习过快，无法收敛，容易震荡甚至发散。如下图。图片来源：https://gino6178.medium.com/%E6%A8%A1%E5%9E%8B%E5%A3%93%E7%B8%AE%E5%8F%8A%E5%84%AA%E5%8C%96-learning-rate-c340a0b940e4
图片来源：https://blog.csdn.net/u012526436/article/details/90486021

自己定义学习率的调整，以官网范例示范。
```
optimizer = optim.SGD(params = model.parameters(), lr=0.05)
lambda1 = lambda epoch:epoch // 10 
lambda2 = lambda epoch:0.95 ** epoch 
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])
```
- optimizer：选择搭配的优化器。
- lr_lambda：自定义的学习率函数。
- last_epoch：设置到哪个epoch就不再调整，预设为-1，到最後个epoch才会从初始学习率开始。
发现会报错，如下图。

他只需要一个lambda函数。於是我们将其拆开看。
用lambda1去尝试。
```
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda1)
```
图片来源：https://www.shuzhiduo.com/A/kPzO4am3Jx/
用lambda2去尝试。
```
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda2)
```
图片来源：https://www.shuzhiduo.com/A/kPzO4am3Jx/
我们也可以尝试自己去定义调整学习率的函数。

与lambdaLR相似，差别在於lambdaLR是用初始学习率去乘lambda函数，而MultiplicativeLR是用前一个epoch的lr去乘上lambda函数去调整lr。

当我们在训练的过程中，在梯度为0时，不一定是最佳解也不一定是最大值，梯度会保持在一个最小值，导致训练非常缓慢停滞不前，那就是卡在了鞍点(Saddle Points)。
　　
　　图片来源：https://www.twblogs.net/a/5c245d4ebd9eee16b4a7d124
如何解决鞍点这个问题，我们需要利用优化器搭配好的学习率，才能解决停滞在鞍点的问题。