【Day 9】梯度下降法（Gradient Descent） --- Tip 2, 3

Tip 2：随机梯度下降法(Stochastic Gradient Descent)

提升训练速度

随机梯度下降法跟原本的Gradient Descent的差别在，它是每次随机取样一个 $x^n$ 出来去计算它的Loss，并更新参数，而Gradient Descent是去计算所有资料的Loss才去更新参数。

Tip 3 ：特徵缩放(Feature Scaling)

假设我们Regression的function要输入两个feature $x_1, x_2$ ，那如果 $x_1, x_2$ 分布的范围不一样就建议把它们缩放(scaling)。

举例来说如果 $ $x_1$ $ 的数值都是比较小的， $x_2$ 的值都是比较大的，那假设我们把 $w_1, w_2$ 的值都增加一个固定的值， $w_1$ 对於 $y$ 的影响会比较小，而 $w_2$ 对於 $y$ 的影响会比较大。
如果 $x_1, x_2$ 的范围是接近的，那它们对於Loss的影响力就会变得差不多，画出来就会变成正圆形，这样不管从什麽地方都可以很容易地到达最低点，因此就可以更容易、更有效地去更新参数。

常见做法

假设有 $R$ 笔范本，每一笔范本里都有一组feature。我们要做的就是去计算每一个dimension $i$ 的平均值 $m_i$ 以及标准差 $\sigma_i$ ，然後再将第 $r$ 个范本的第 $i$ 个component代入公是去做计算并更新，最後会发现所有dimension的平均值会是 0，而变异数会是 1。