With data collection, ‘the sooner the better’ is always the best answer. – Marissa Mayer
就像大家耳熟能详的 GIGO 所阐述的概念一样,我们收集来的训练资料以及标注它们的方式直接影响了 ML 系统的最终输出,而这与使用者体验息息相关。
为了避免糟糕的资料选择导致後续模型开发等步骤出师不利,甚至最终使得产品失败,我们必须从一开始就计画好如何收集高品质的资料,因此今天会说明以下要点:
收集资料时最重要的就是了解使用者,把他们的需求转译成资料问题 (Data Problem),才不会浪费时间收集用不到的资料,以 跑步路线推荐 app 为例:
首先要厘清使用者是谁?其需求为何?以及 ML 系统的目标为何?
而为了要把使用者需求转译为资料需求,可依序厘清:
最终收集的资料结果可能如下:
*图片来源:People + AI Guidebook — Data Collection + Evaluation
另外对收集来的资料要负责任,这包含了纪录来源、保障隐私以及避免歧视:
资料可能的来源有很多,要负责任地纪录清楚:
资料收集与管理不只与模型有关,更重要的是安全与隐私,前者是指确保个人资料 (Personally Identifiable Information) 安全的政策或方法,後者则是正确的使用、收集、保留、删除与储存这类资料。
其中确保资料安全的方法有:
而透过以下方法则可以确保隐私:
必须在公平、可靠、透明、可解释间取得平衡,否则 ML 系统可能会让使用者失望,例如:
因此要时时注重公平性。
当 AI 团队与其他领域专家合作时,最常被问到的问题就是,要提供多少资料才行?
这时候通常都是依照 feature 数量来大致推估所需的资料量,但在电子报 Data-Centric AI Development, Part 3: Limit Data Collection Time 提出了另外一种想法 — 把「要花多久才能收集 m 个样本?」改为「在 d 天内可以收集多少资料?」,也就是改执行以下训练回圈:
这是因为首次训练、错误分析的时间通常都不长,别因为收集资料延宕整体进度,尽快进入训练模型的回圈中才是王道,等资料真的不够还有充足的时间再回头收集就好。
如果已经有过去的经验告诉我们需要多少资料就另当别论。
好啦,今天的内容就到这里,明天就来继续谈谈如何标注资料吧!
<<: Day 20:1566. Detect Pattern of Length M Repeated K or More Times
>>: D20/ 怎麽在 compose 与 non-compoe 间传资料 - Compose Side-Effect part 2
什麽是 Worker Pool Pattern? 设定好 pool 的 goroutine 数量,预...
最後一天就来部署我们的flutter web吧,也算是这系列文中真的跟「web」唯一有关的一篇文XD...
此系列文章会同步发文到个人部落格,有兴趣的读者可以前往观看喔。 选取元素 ⚠️ 避免使用会常常变的s...
今天的重点 索引 基本索引: 先建立一个4x3的ndarray来让我们实际操作 阵列索引是由外而内的...
通常要一件事,自己一个人做是做是最快的,因为从构思、设计,只需要在自己大脑传递就完成了,执行的结果也...