Day 9 - 目前(传统)的机器学习三步骤(4)-训练之测试

交叉验证 Cross-Validation (wiki)

交叉验证,有时亦称循环估计,是一种统计学上将数据样本切割成较小子集的实用方法。於是可以先在一个子集上做分析,而其它子集则用来做後续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化

1.Cross-validation avoids overlapping test sets

  • First step: split data into k subsets of equal size
  • Second step: use each subset in turn for testing, the remainder for training

2.Called k-fold cross-validation
3.Often the subsets are stratifified before the cross- validation is performed
4.The error estimates are averaged to yield an overall error estimate

下例说明 3 子集验证 (k=3)
https://ithelp.ithome.com.tw/upload/images/20201205/20130601bDjy0Z7KjL.png

小心Overfitting (过适)

1.(wiki)在统计学中,过适(英语:overfitting,或称拟合过度)是指过於紧密或精确地匹配特定资料集,以致於无法良好地调适其他资料或预测未来的观察结果的现象。
2.(wiki)在统计学习和机器学习中,为了避免或减轻过适现象,须要使用额外的技巧(如模型选择、交叉验证、提前停止、正则化、剪枝、贝叶斯资讯量准则、赤池资讯量准则或dropout)。
3.以下绿线及蓝线是overfitting
https://ithelp.ithome.com.tw/upload/images/20201205/20130601EgtDhatekH.pnghttps://ithelp.ithome.com.tw/upload/images/20201205/20130601caHNV471qm.png

注:本文是搜寻数个网站及各种不同来源之结果,着重在学习,有些内容已难办别出处,我会尽可能列入出处,若有疏忽或出处不可考,请联络我, 我会列入, 尚请见谅。

<<:  [读书笔记] Threading in C# - PART 3: USING THREADS

>>:  【网路概论】 7-1 IPv4网路地址

关闭核电厂的椅子

故事简述 核二厂2号机於2021/7/27清晨6时32分发生反应炉急停事件,初步调查为人为疏失 原能...

30天打造品牌特色电商网站 Day.13 导览列基础制作(上)

昨天已经做过了导览列的介绍,那我们今天就学习用 HTML 和 CSS 基本的语法,来试着做一个简单的...

Vue slot: 具名插槽

tags: Vuejs 具名插槽 ✐ 若是需要多个插槽,可以在 <slot> 中使用 n...

D26 如何用 Apps Script 自动化地创造与客制 Google Sheet?(三)依照范本大量复制试算表

今天的目标: 要怎麽样依照范本复制并改动 Google Sheet,并一次性地的将结果搜集到同一份 ...

未来狂想:国防军事

人的科技文明发展始终来自於人性 奠基於各国的工业发展水准发达及科技发展的技术发达,在这两大的基石之上...