[Day 25] 资料产品在评估阶段的五个大坑

在评估阶段有几件面向需要注意

资料产品品质

资料产品品质是需要持续监控和评估的。不同层的资料产品有不同的品质指标,基本上很难一次到位,需要持续增加观察的指标。例如原始资料一开始可能只会监控资料量、接着再加上检查每个栏位极值、之後再加上一些统计指标确认分布。

使用的资源

生产资料产品也是需要资源的,这些资源包括网路传输、硬碟、CPU、Memory、处理时间等。我们需要持续监控这些生产资料产品时的资源指标。

  • 如果资源用量比预期的低,就能调降分配的硬体资源,将资源用到其他地方上。
  • 观察资源使用的趋势,设定 Threshold 来调整硬体资源。例如当 CPU 或 RAM 用量高於 50% 时就要加开机器来处理资料,如果硬碟快满了就要扩充结点之类的调整。
  • 如果用量是在短时间突然变大或变小,就表示可能哪里出错了。

成本

呈上,既然需要资源,就表示有相应的成本。地端环境的成本相对好计算,只要掌握节点数量、网路费用、电费就差不多了。但是在云端环境上就很复杂了。资料产品每一层都会对应到不同的资源,这边以 AWS 为例:

  • 原始资料
    原始资料会从 App 端直接送到 Kinesis 或是 API Getway,後续会需要像是 Lambda 或 Farget 之类的资源来将资料落地到 S3 或 RDS 、Elastic Search 里面。

  • 加工资料
    在 AWS 上,可以透过 EMR 或是 Athena 来处理大量资料,小量资料可以 EC2 或是 Lamda 来处理。

  • 模型
    模型可以透过 Sagemaker 或 EC2、EMR 来训练或处理。

  • 辅助决策
    我们可以利用 k8s 或 EC2 来架设 BI 工具。BI 工具可以直接使用 RDS 或 Athena 来做 SQL 计算。

  • 自动决策
    通常自动决策系统会需要提供 API 给其他 Application 使用,因此会将模型部署到 Lambda、Sagemaker 或 k8s 上来让其他应用呼叫。

除了直接的资料产品使用的资源外,当然还有像是监控或 Logging 等辅助工具需要 $$,像是 Cloudwatch、Promethues 之类的。这些云端工具通常就是根据使用量来算钱,但是在制作资料产品(特别是分析或建模)时,往往很难事先预估可能使用的资源量(例如要拉多少资料、要下几次 Query 之类的)。

效益

资料产品对於商业带来的效益是难以估算的,就是字面上的意思,「难以估算」。虽然残酷,但是前三层的资料产品不管做得多少,都看不到价值。资料产品一定得做到辅助决策或是自动决策才看得到价值,其中又以自动决策带来的价值更好估算,像是自动语音减少了多少人力、广告推荐增加了多少点击等等。


<<:  [DAY9]制作容器(八)

>>:  [第十只羊] 迷雾森林舞会III 参见排版神器 Tailwind

Day 18 ( 中级 ) 地球绕着太阳转

地球绕着太阳转 教学原文参考:地球绕着太阳转 这篇文章会介绍,如何在 Scratch 3 里使用重复...

[23] 用 python 刷 Leetcode: 290 Word Pattern

因为我对 python 不熟,题目可能会在简单和中等之间跳来跳去 用 Python3 解 LeetC...

[Day29] 沟通之术 - 老板篇

今天是倒数第二天了~这个系列也快结束了,今天就以跟老板相处的过程时,老板给的提点来做个小结尾吧! 前...

JS 27 - 平滑滚动,让视窗不再是闪电侠!

大家好! 我们今天要实作让视窗能平滑地滚动到锚点。 我们进入今天的主题吧! 程序码 (functio...

为了转生而点技能-javascript,day2(杂记-记忆体的回收机制-Not Defined VS undefined

Not Defined VS undefined undefined: 在创造阶段只有变数在记忆体里...