【Day 12】逻辑回归（Logistic Regression）（上）

步骤一：Function Set

昨天的最後我们提到我们要找一个事後机率(Posterior Probability)，如果它大於 0.5 就输出 $C_1$ ，否则就输出 $C_2$ 。如果是使用Gaussian，则 $P_{w,b}(C_1|x) = \sigma (z)$ ， $z = w \cdot x + b$ 。

Function set： $f_{w,b}(x) = P_{w,b}(C_1|x)$

如果用图像化表示则整个模型如下图所示，将所有的输入 $x_i$ 分别乘上 $w_i$ 再加上 $b$ 就会得得到 $z$ ，即 $z = \displaystyle \sum_i w_ix_i + b$ ，接着 $z$ 通过Sigmoid function输出的值就是事後机率，这整件事情我们就称为逻辑回归(Logistic Regression)。

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

步骤二：Goodness of a Function

训练资料需要标记(Label)，也就是说每个 $x$ 都要标记它属於哪一个class。假设我们的训练资料是从事後机率所产生的，只要给我们一个 $w, b$ 我们就决定了事後机率，就可以去计算某一组 $w, b$ 产生 $N$ 笔训练资料的机率，而我们要找一组可以最大化这个机率的 $w^*, b^*$ 。

经过一些数学运算则可以将式子改为 $w^*, b^* = arg \ \displaystyle \min_{w, b} -lnL(w,b)$ 。

整理过後可以发现 $\Sigma$ 後面那一长串是两个伯努利分布(Bernoulli distribution)的交叉熵(Cross-entropy)，Cross-entropy代表的涵义是这两个distribution有多接近，如果两个分布是一样的，那Cross-entropy算出来就会是 0。因此我们在做的就是去算所有样本的Cross-entropy的总和。

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

步骤三：Find the best function

要找到一个最好的function，就要让 $-lnL(w, b)$ 最小化，也就是要最小化所有样本的Cross-entropy的总和。可以用梯度下降法(Gradient Descent)，就是做对 $w$ 的偏微分。

经过整理之後会得到 $-lnL(w, b) = \displaystyle \sum_n -(\hat y - f_{w, b}(x^n)) x^n_i$ 。从括弧中的式子可以看出 $w$ 的更新取决於Learning rate $\eta$ 、 $x_i^n$ 以及 $\hat y^n - f_{w, b}(x^n)$ ，这个式子代表function的输出跟理想目标的差距大小，如果离目标越远，则应该更新越多次参数。

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

逻辑回归(Logistic Regression) + 方差(Square error)

将逻辑回归的式子的输出减掉 $\hat y$ 的平方加总当作Loss function，一样用梯度下降法对 $\Sigma$ 後面的式子对 $w$ 做偏微分，会得到如下图所示的结果。

会遇到一个问题就是，假设今天第 $n$ 笔资料是 class 1 $\ \hat y^n = 1$ ，当 $f_{w, b}(x^n) = 1$ 就代表你很接近你的目标，将它们的值代入式子算出来微分等於 0，而当 $f_{w, b}(x^n) = 0$ 就代表你离你的目标还很远，将它们的值代入式子算出来微分也等於 0。

如果把参数的变化对Total Loss作图，选择Cross-entropy跟选择Square error的参数的变化跟loss的变化如下图所示。
从图中可以看到，以Cross-entropy来说距离目标越远，微分值就越大，参数更新越快，但是如果是Square error，当距离目标很远的时候，微分却非常小，就会导致不知道距离目标的远近。

参考资料

李宏毅老师 - ML Lecture 5

<<: Day 12 | Dart 中的 Sound null safety

>>: Day 10 情报收集 - Information Gathering (Maltego)

【Day 12】逻辑回归（Logistic Regression）（上）

步骤一：Function Set

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

步骤二：Goodness of a Function

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

步骤三：Find the best function

逻辑回归(Logistic Regression) v.s. 线性回归(Linear Regression)

逻辑回归(Logistic Regression) + 方差(Square error)

参考资料

开始建立专案

Docker：Docker Hub Pull 流程

Day-8 Geeker 们最爱的工程型怀旧游戏神器 OSSC

Day 14 - PHP SDK: 用 Pure PHP 建立购物网 (上)

Day06 永丰金API 基础流程 -- 讯息内文

【Day 1】Startup x macOS setup x 一起来挖萝卜坑

DAY 15- 《公钥密码》-ECC

【第十四天 - 堆叠型 SQL注入】

时序图与 API 呼叫流程

[从0到1] C#小乳牛练成基础程序逻辑 Day 16 - switch case 条件判断 + break