[Day 16] Data! — 资料就是我的超能力

Data is the hardest part of ML and the most important piece to get right...
Broken data is the most common cause of problems in production ML systems. — Uber

前言

Software 2.0 的概念中,资料为机器学习的 第一类公民(First-class citizen),因为一切都始於资料,换句话说,模型并不是魔法,有意义的资料才是关键。
那什麽才叫有意义的资料呢? 其特质如下:

  • 最大化具有预测性的内容 (Predictive content)。
  • 最小化没帮助的资料 (Non-informative data)。
  • 训练集与实际资料的特徵空间涵盖范围尽可能一致。

而为了使资料的品质提升,我们就得建立良好的 Data Pipeline。

Data Pipeline

前面提到过 ML Pipeline 是 ML 产品的核心,它指的是实作整个机器学习产品的软件架构,包含自动化、监控与维护整个 ML 工作流程,也是 MLOps 的关键元素。
依照 ML 产品的生命周期可以将 Data Pipeline 需要进行的工作归纳为以下几点:
data pipeline
*图片修改自 MLEP — Importance of Data

经由这个流程,我们希望能达到以下目标:

  • 标签 (Labeling):标签正确性与一致性。
  • 特徵空间涵盖范围 (Feature space coverage):确保训练集涵盖的特徵空间与模型部署後会接收到的实际资料相同。
  • 最低限度的维数 (Minimal dimensionality):尽可能降低特徵向量的维度,以最佳化系统表现。
  • 最大程度的资料预测能力 (Maximum predictive data):在降低维度的同时尽可能保持或加强资料所包含的有用资讯。
  • 公平性 (Fairness):必须衡量资料与模型的公平性。
  • 极端条件 (Rare conditions):罕见类别的表现不能差。

其中特徵工程 (Feature engineering) 可以最大化资料的预测性,而特徵选择 (Feature selection) 则可以衡量具有预测性的资讯在哪,由於这两个部分大家比较熟悉,加上内容也比较复杂,所以这次挑战就暂且不谈。

未来几天我们主要会聊到的内容是定义资料、建立 Baseline、标注与处理资料 (包含资料收集、标注、统一格式)。
以上就是资料部分的主轴啦,那麽明天就让我们从第一步的定义资料开始讨论吧!
/images/emoticon/emoticon08.gif

参考资料


<<:  Flutter基础介绍与实作-Day17 Onboarding、Login、Sign Up范例实作(4)

>>:  [DAY16] Data Access Layer 测试

【Day18】在使用者模式移除data-test属性,浅谈React Hook (•‿•)

上一篇有提到,我们可以在使用者模式(Production mode)将属性隐藏起来不让使用者看到。 ...

Subtotal函数经典用法,以一敌十!

在Excel中subtotal函数既能求和,不但能求平均值,还能计数,求最值等。可以说是非常实用的一...

Laravel Middleware 实作 Signature Verification

延续昨天,我们来看可以怎麽在 Laravel 框架下实作签证的验证。 What is middlew...

MLOps在金融产业:常见案例与工作流程

在金融产业的ML 在algorithmia的2021 年企业机器学习趋势调查显示,关於客户体验跟流程...

Day28 | 获取安装的extension进行操作

大家好,我是韦恩,今天是第二十八天,让我们会练习获取extension的api,为专案的重点功能做准...