Day 22 : 决策树

决策树(Decision trees)是一种过程直觉单纯、执行效率也相当高的监督式机器学习模型，适用於classification 及 regression 资料类型的预测，与其它的ML模型比较起来，执行速度是它的一大优势。

此外，Decision trees 的特点是每个决策阶段都相当的明确清楚（不是YES就是NO），相较之下，Logistic Regression 与 Support Vector Machines 就好像黑箱一样，我们很难去预测或理解它们内部复杂的运作细节。而且 Decision trees 有提供指令让我们实际的模拟并绘出从根部、各枝叶到最终节点的决策过程。

什麽是决策树？

用来处理问题的树状结构
每个内部节点表示一个评估欄位
模仿人类决策的过程

原理

刚刚提到的决策边界，你现在找到有三个特徵

A：是否戴口罩

B：是否打疫

C：是否14天有出国

假设是你发现找到确诊案例的公式是 sigmoid(-50 + 300 * A ＋ 240 * B + 163 * C) > 0.5 则代表是确诊。你很开心地跑去跟卫生署的人说明，但是却很少人可以懂你的模型在干麽。这时候你用了决策树，你改变你的说法，只要没有打口罩，有70%会确诊；若带口罩的前提之下但是没有打疫苗，还是有70%会确诊...

於是让非专业资料分析人员也可以清楚在干麽，解释力也很强，这就是决策树的优点

优缺点

优点
- 简单且具有高度解释力
- 执行速度快
缺点
- 模型容易过度拟合
- 特徵过多的时候，树会非常多分支

决策树的评估指标

以吉尼系数(Gini)作为选择依据（不纯度计算）
亦可用资讯增益(Information Gain)（用熵计算）

吉尼不纯度（Gini Impurity）

假设资料集合 S 包含 n 个類别，吉尼系數 Gini(S) 定义为，pj为在S中的值组属於類别j的机率

利用属性A分割资料集合 S 为 S1 与 S2 (二元分割)。则根据此一分割要件的吉尼系數GiniA(S)为

Gini impurity (吉尼不纯度)降低值:

$\Delta Gini(A) = Gini(S) - Gini_A(S)$

挑选拥有最大不纯度的降低值或吉尼不纯度GiniA(S)最小的属性作为分割属性。

说明	计算
female的 Gini index	$1 - (2/10)^2 - (8/10)^2 = 0.32$
male的 Gini index	$1 - (13/20)^2 - (7/20)^2 = 0.455$
加权计算後 Gini index	$(10/30)0.32 + (20/30)0.455 = 0.41$

说明	计算
more than 30 的 Gini index	$1 - (6/14)^2 - (8/14)^2 = 0.489$
less than 30 的 Gini index	$1 - (9/16)^2 - (7/16)^2 = 0.492$
加权计算後 Gini index	$(16/30)0.489 + (14/30)0.492 = 0.49$

性别的分类有比较小的Gini不纯度，代表用该特徵分类後资料比较不混乱

资讯获利（Information Gain, IG）

以熵 (Entropy) 为基础
熵 (乱度)，可当作资讯量的凌乱程度 (不确定性) 指标，当熵值愈大，则代表资讯的凌乱程度愈高。

$(16/30)*0.489 + (14/30)*0.492 = 0.49$
$IG = -p * log_2 p - q * log_2 q$

说明	计算
female的 Entropy	$- (2/10)log_2(2/10) - (8/10)log_2(8/10) = 0.72$
male的 Entropy	$- (13/20)log_2(13/10) - (7/20)log_2(7/20) = 0.93$
加权计算後 Entropy	$(10/30)0.72 + (20/30)0.93 = 0.86$

说明	计算
more than 30 的 Entropy	$- (6/14)log_2(6/14) - (8/14)log_2(8/14) = 0.99$
less than 30 的 Entropy	$- (9/16)log_2(9/16) - (7/16)log_2(7/16) = 0.99$
加权计算後 Entropy	$(14/30)0.99 + (16/30)0.99 = 0.99$

性别的分类有比较小熵，代表用该特徵分类後资料比较不混乱

实作程序码

一样套用上次的模板，我们将资料进行切割後喂给模型

from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier(criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

print(cm)
>>> [[57 10]
     [ 6 27]]

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

视觉化

绘制 trainin set 和 testing set 的图

树状图

# 建立决策树 (3 层) 并预测结果
model = DecisionTreeClassifier(max_depth=3)
model.fit(dx_train, dy_train)
predict = model.predict(dx_test)
test_score = model.score(dx_test, dy_test) * 100
# 印出预测精确率
print(f'Accuracy: {test_score:.1f}%')
# 印出文字版的决策树
print(export_text(model, feature_names=list(feature_names)))
# 绘制决策树
plt.figure(figsize=(16, 16))
plot_tree(model,  # 填满颜色, 开启圆角, 显示百分比
          filled=True, rounded=True, proportion=True,
          feature_names=feature_names,
          class_names=class_names)
plt.savefig('tree.jpg')  # 写入到档案

github 程序码

更详细可以请参考连结

<<: 虹语岚访仲夏夜-20(专业的小四篇)

>>: Day 22 - 运算过载，warning ! warning !

Day 22 : 决策树

什麽是决策树？

原理

优缺点

决策树的评估指标

吉尼不纯度（Gini Impurity）

资讯获利（Information Gain, IG）

实作程序码

视觉化

树状图

github 程序码

iris的jwt

DAY3 安装 Kubernetes

Leetcode 207. Course Schedule | 含C++笔记

2021-Day9. 第一印象很重要！！从使用者加好友时，就建立良好关系：Line加好友欢迎讯息实作（二）

献出你的心脏，将AWS EC2注入新生命

Day 25 - 云端备份是降低专案风险的一环

[Day 2] Reactive Programming - Programming paradigm

Day 1 | 在安装之後

【Day16-搜寻】茫茫文海当中找到那个对的词——文字处理利器之正规表达式在python的应用

Day 28 网路身分认证-Cognito