Data is the hardest part of ML and the most important piece to get right...
Broken data is the most common cause of problems in production ML systems. — Uber
在 Software 2.0 的概念中,资料为机器学习的 第一类公民(First-class citizen),因为一切都始於资料,换句话说,模型并不是魔法,有意义的资料才是关键。
那什麽才叫有意义的资料呢? 其特质如下:
而为了使资料的品质提升,我们就得建立良好的 Data Pipeline。
前面提到过 ML Pipeline 是 ML 产品的核心,它指的是实作整个机器学习产品的软件架构,包含自动化、监控与维护整个 ML 工作流程,也是 MLOps 的关键元素。
依照 ML 产品的生命周期可以将 Data Pipeline 需要进行的工作归纳为以下几点:
*图片修改自 MLEP — Importance of Data
经由这个流程,我们希望能达到以下目标:
其中特徵工程 (Feature engineering) 可以最大化资料的预测性,而特徵选择 (Feature selection) 则可以衡量具有预测性的资讯在哪,由於这两个部分大家比较熟悉,加上内容也比较复杂,所以这次挑战就暂且不谈。
未来几天我们主要会聊到的内容是定义资料、建立 Baseline、标注与处理资料 (包含资料收集、标注、统一格式)。
以上就是资料部分的主轴啦,那麽明天就让我们从第一步的定义资料开始讨论吧!
<<: Flutter基础介绍与实作-Day17 Onboarding、Login、Sign Up范例实作(4)
>>: [DAY16] Data Access Layer 测试
上一篇有提到,我们可以在使用者模式(Production mode)将属性隐藏起来不让使用者看到。 ...
在Excel中subtotal函数既能求和,不但能求平均值,还能计数,求最值等。可以说是非常实用的一...
延续昨天,我们来看可以怎麽在 Laravel 框架下实作签证的验证。 What is middlew...
在金融产业的ML 在algorithmia的2021 年企业机器学习趋势调查显示,关於客户体验跟流程...
大家好,我是韦恩,今天是第二十八天,让我们会练习获取extension的api,为专案的重点功能做准...