Day 12 - Confusion Matrix 混淆矩阵-模型的好坏 (2)

精确率(precision)

https://ithelp.ithome.com.tw/upload/images/20201211/2013060100p9q7Iizc.png
https://ithelp.ithome.com.tw/upload/images/20201211/20130601z7JrrYwdwy.png

召回率(recall)

https://ithelp.ithome.com.tw/upload/images/20201211/20130601gjjnnM9QWh.pnghttps://ithelp.ithome.com.tw/upload/images/20201211/20130601q1UTNVgY6L.png

  • Precision和Recall同时关注的都是True Positive(都在分子),但是角度不一样,Precision看的是在预测正向的情形下,实际的「精准度」是多少,而Recall则是看在实际情形为正向的状况下,预测「能召回多少」实际正向的答案。一样的,如果是门禁系统,我们希望Precision可以很高,Recall就相较比较不重要,我们比较在意的是预测正向(开门)的答对多少,比较不在意实际正向(是主人)的答对多少。如果是广告投放,则Recall很重要,Precision就显得没这麽重要了,因为此时我们比较在意的是实际正向(是潜在客户)的答对多少,而相对比较不在意预测正向(广告投出)答对多少。

  • Precision和Recall都不去考虑True Negative,因为通常True Negative会是答对的Null Hypothesis,简单讲就是最无聊的正确结果。在门禁的解锁问题就是陌生人按压且门不开;在广告投放的例子中就是广告不投,结果那个人也不是潜在客户:在信用卡盗刷的例子,机器人认为正常的刷卡纪录,其实也正是正常的。在通常的命题之下,实际是正向的结果是比负向少的,理所当然预测正向的结果也要比负向少,所以True Negative通常是量最多的,也是最无聊的。

以上三种是基本常用的评估指标,可依照不同情境来决定要以哪个指标为主要的模型评估指标。那假设今天的情境是想同时考虑「precision」和「recall」(「accuracy」因有使用上的限制,暂且不考虑)的话,这时就可以考虑改用「F1-score」。

F1-score:是「precision」和「recall」的调和平均数(harmonic mean),可看作是该二指标的综合指标,能较全面地评断模型的表现。

https://ithelp.ithome.com.tw/upload/images/20201211/20130601fqJsMGZwAE.png

补充说明:
在F1-score中,会选用「调和平均数」而非「算数平均数」作为平均「precision」和「recall」的方式,是为了要强调较小值的重要性。
会这麽说是因为该二指标是互相制约的—不会有两个指标同时很高或很低的状况发生,这样可以更加方便评价模型的好坏,以下范例说明何谓「强调较小值的重要性」:
当recall接近1、precision接近0
采用「调和平均数」的F1-score接近0 ➜ 等效於评价precision和recall的整体效果(代表模型的效果还有很大很大的进步空间)
采用「算数平均数」的F1-score为0.5左右

Prevalence(盛行率)

医学上常用的指标,如果以人口当作所有的样本,实际得病的患者所占的比例就代表这个病的盛行情况。

Sensitivity(Recall , 灵敏度) 和Specificity (特异度)

如果今天有一个诊断方法可以判定病人是否有得此病,有两个指标可以看,那就是Sensitivity和Specificity,Sensitivity就是Recall,它代表的是诊断方法是否够灵敏可以将真正得病的人诊断出来,其实就是真正有病症的患者有多少可以被侦测出来,而Specificity则代表实际没病症的人有多少被检验正确的。两种指标都是越高越好。

通常在医学上,会通过一些阀值来断定病人是否有得此病,而这个阀值就会影响Sensitivity和Specificity,这个不同阀值Sensitivity和Specificity的分布情况可以画成ROC Curve,而ROC Curve底下的面积称为AUC,AUC越大越好。

https://ithelp.ithome.com.tw/upload/images/20201211/20130601x3R4k64tka.png

如何辨别机器学习模型的好坏?秒懂Confusion Matrix

注:本文是搜寻数个网站及各种不同来源之结果,着重在学习,有些内容已难办别出处,我会尽可能列入出处,若有疏忽或出处不可考,请联络我, 我会列入, 尚请见谅。

<<:  LinkServer function 不允许远端函数参考

>>:  [Cmoney 菁英软件工程师战斗营] IOS APP 菜鸟开发笔记(3)

Day 08 CSS <文本属性>

CSS Text 属性可定义文本的外观 例如 : 文本的颜色、对齐文本、装饰文本、文本缩进、行间距 ...

鼎新 smart ERP 未休完特休工资结算作业 还原

我们公司的系统是 鼎新 smart ERP 人事行政同事不小心 执行了「未休完特休工资结算作业」,这...

Day 25: Behavioral patterns - State

目的 如果物件内的方法,会依据物件内的状态,使用多个 if - else if - else 或 s...

【day1】豚花돈꽃韩式料理三访

在近三个月的防疫禁止内用期间 最想念的食物之一就是韩式烤肉了 (不用自己动手烤的那一种) 这家豚花돈...

物理访问控制系统(PACS)-重播攻击(Replay attack)

下图演示了针对生物识别系统的九个攻击点。从传感器到特徵提取器的生物特徵数据的回放是其中之一。 . “...