[Day 16] Data! — 资料就是我的超能力

Data is the hardest part of ML and the most important piece to get right...
Broken data is the most common cause of problems in production ML systems. — Uber

前言

在 Software 2.0 的概念中，资料为机器学习的第一类公民(First-class citizen)，因为一切都始於资料，换句话说，模型并不是魔法，有意义的资料才是关键。
那什麽才叫有意义的资料呢? 其特质如下：

最大化具有预测性的内容 (Predictive content)。
最小化没帮助的资料 (Non-informative data)。
训练集与实际资料的特徵空间涵盖范围尽可能一致。

而为了使资料的品质提升，我们就得建立良好的 Data Pipeline。

Data Pipeline

前面提到过 ML Pipeline 是 ML 产品的核心，它指的是实作整个机器学习产品的软件架构，包含自动化、监控与维护整个 ML 工作流程，也是 MLOps 的关键元素。
依照 ML 产品的生命周期可以将 Data Pipeline 需要进行的工作归纳为以下几点：

*图片修改自 MLEP — Importance of Data

经由这个流程，我们希望能达到以下目标：

标签 (Labeling)：标签正确性与一致性。
特徵空间涵盖范围 (Feature space coverage)：确保训练集涵盖的特徵空间与模型部署後会接收到的实际资料相同。
最低限度的维数 (Minimal dimensionality)：尽可能降低特徵向量的维度，以最佳化系统表现。
最大程度的资料预测能力 (Maximum predictive data)：在降低维度的同时尽可能保持或加强资料所包含的有用资讯。
公平性 (Fairness)：必须衡量资料与模型的公平性。
极端条件 (Rare conditions)：罕见类别的表现不能差。

其中特徵工程 (Feature engineering) 可以最大化资料的预测性，而特徵选择 (Feature selection) 则可以衡量具有预测性的资讯在哪，由於这两个部分大家比较熟悉，加上内容也比较复杂，所以这次挑战就暂且不谈。

未来几天我们主要会聊到的内容是定义资料、建立 Baseline、标注与处理资料 (包含资料收集、标注、统一格式)。
以上就是资料部分的主轴啦，那麽明天就让我们从第一步的定义资料开始讨论吧!

参考资料

<<: Flutter基础介绍与实作-Day17 Onboarding、Login、Sign Up范例实作(4)

>>: [DAY16] Data Access Layer 测试

[Day 16] Data! — 资料就是我的超能力

前言

Data Pipeline

参考资料

013-状态

第二十九日－MYSQL预存程序 STORED PROCEDURE：来写一个BMI小程序(2)

【Day 04】C 的一些基本语法

Day 24 : 案例分享(7.3) 库存与制造 - 从单纯的制造开始

Day08 - Numbers

【Day18】在使用者模式移除data-test属性，浅谈React Hook (•‿•)

Subtotal函数经典用法，以一敌十！

Laravel Middleware 实作 Signature Verification

MLOps在金融产业：常见案例与工作流程

Day28 | 获取安装的extension进行操作