【Day 5】机器学习基本功（三） --- Regression

如何找到一个函式(function)？(下)

步骤一：写出一个带有未知参数的函式

昨天举的例子 $y = b + wx_1$ 是一个线性模型(linear model)，随着 $x_1$ 越大， $y$ 就越大，可以透过设定不同的 $w$ 来改变斜率，或是设定不同的 $b$ 来改变直线与 y 轴的交叉点，但它永远会是一条直线。

然而实际情况可能会是红色曲线这样子，但不管怎麽设定 $w, b$ 也没办法变成红色那条曲线。由此可知线性模型会有很大的限制(Model Bias)，因此如要产生红色曲线我们就需要更复杂的模型。

红色曲线可以看成是一个常数加上很多个蓝色的函式，从下图中可以看到红色的曲线可以由 0(常数项), 1, 2, 3 这四个函数所组成。而这个红色曲线是由很多线段所组成的，我们称之为分段线性曲线(Piecewise Linear Curves)。

那刚刚提到的蓝色曲线要如何表示呢？
我们可以使用 S型函数(Sigmoid function) 去逼近它，其式子写成 $https://chart.googleapis.com/chart?cht=tx&chl=y%20%3D%20c%20%5Cfrac%201%20%7B1%2Be%5E%7B-(b%2Bwx_1)%7D%7D%20%3D%20c%20%5Ctimes%20sigmoid(b%2Bwx_1)$ ，当 $x_1$ 趋近於无穷大， $e^{- \infty} = 0$ ， $y$ 就会收敛在 $c$ ，而当 $x_1$ 趋近於无穷小，分母会趋近於无穷大，即 $y$ 会趋近於 0。这些蓝色曲线我们称之为 Hard Sigmoid。

调整 $w$ 即会改变斜率，调整 $b$ 就能将 Sigmoid funtion 左右移动，调整 $c$ 则会改变高度。

藉由调整不同的参数来产生各种Sigmoid function，再透过这些Sigmoid function产生各种不同的 Piecewise linear function，最後甚至能够逼近各种连续函数。

根据上述方法我们就可以将原本的 $y = b + wx_1$ 改成 $y = b + \displaystyle \sum_i c_i \times sigmoid(b_i + w_ix_i)$ 。

我们将上述的数学式子透过图形来表示，每个图形都代表着一矩阵或是数值，而我们将这些未知的参数拉直，拼成一个很长的向量 $\theta$ ，即为所有未知的参数。

步骤二：从训练资料定义损失函数(Loss)

损失函数： $L(\theta)$

计算Loss的方法跟昨天教的方法一样，首先设定一组 $b, \bf c^T,$ $\bf b, W$ 的值，接着把feature $\bf x$ 代入，得出预测的 $y$ ，再去计算预测的值与真实的值的差距 $e$ ，最後加总误差。

步骤三：解最佳化问题

找一组能让Loss最小的 $\theta^*$ 。

方法也跟昨天教的一样，使用Gradient descent，首先随机选一个初始数值 $\theta^0$ ，接着去计算每一个参数对Loss的微分，会得到一个向量 $g$ ，即为Gradient，我们可以用 $\nabla$ 来表示，将式子写成 $g = \nabla L(\theta^0)$ ，最後去重复更新所有的参数。

而实际上在做Gradient descent的时候，我们会将我们有的 $N$ 笔资料随意分成好几个Batch $B$ ，并对其中一个Batch计算它的Loss $L^1$ ，并使用 $L^1$ 来计算Gradient并更新参数，接着再取下一个Batch去计算Loss，以此类推。
每次更新一次参数，我们叫做一次Update，而将所有Batch看过一次，我们称之为一次Epoch，