[Day 25] 资料产品在评估阶段的五个大坑

在评估阶段有几件面向需要注意

资料产品品质

资料产品品质是需要持续监控和评估的。不同层的资料产品有不同的品质指标，基本上很难一次到位，需要持续增加观察的指标。例如原始资料一开始可能只会监控资料量、接着再加上检查每个栏位极值、之後再加上一些统计指标确认分布。

使用的资源

生产资料产品也是需要资源的，这些资源包括网路传输、硬碟、CPU、Memory、处理时间等。我们需要持续监控这些生产资料产品时的资源指标。

如果资源用量比预期的低，就能调降分配的硬体资源，将资源用到其他地方上。
观察资源使用的趋势，设定 Threshold 来调整硬体资源。例如当 CPU 或 RAM 用量高於 50% 时就要加开机器来处理资料，如果硬碟快满了就要扩充结点之类的调整。
如果用量是在短时间突然变大或变小，就表示可能哪里出错了。

成本

呈上，既然需要资源，就表示有相应的成本。地端环境的成本相对好计算，只要掌握节点数量、网路费用、电费就差不多了。但是在云端环境上就很复杂了。资料产品每一层都会对应到不同的资源，这边以 AWS 为例：

原始资料
原始资料会从 App 端直接送到 Kinesis 或是 API Getway，後续会需要像是 Lambda 或 Farget 之类的资源来将资料落地到 S3 或 RDS 、Elastic Search 里面。
加工资料
在 AWS 上，可以透过 EMR 或是 Athena 来处理大量资料，小量资料可以 EC2 或是 Lamda 来处理。
模型
模型可以透过 Sagemaker 或 EC2、EMR 来训练或处理。
辅助决策
我们可以利用 k8s 或 EC2 来架设 BI 工具。BI 工具可以直接使用 RDS 或 Athena 来做 SQL 计算。
自动决策
通常自动决策系统会需要提供 API 给其他 Application 使用，因此会将模型部署到 Lambda、Sagemaker 或 k8s 上来让其他应用呼叫。

除了直接的资料产品使用的资源外，当然还有像是监控或 Logging 等辅助工具需要 $$，像是 Cloudwatch、Promethues 之类的。这些云端工具通常就是根据使用量来算钱，但是在制作资料产品（特别是分析或建模）时，往往很难事先预估可能使用的资源量（例如要拉多少资料、要下几次 Query 之类的）。

效益

资料产品对於商业带来的效益是难以估算的，就是字面上的意思，「难以估算」。虽然残酷，但是前三层的资料产品不管做得多少，都看不到价值。资料产品一定得做到辅助决策或是自动决策才看得到价值，其中又以自动决策带来的价值更好估算，像是自动语音减少了多少人力、广告推荐增加了多少点击等等。

<<: [DAY9]制作容器(八)

>>: [第十只羊] 迷雾森林舞会III 参见排版神器 Tailwind

[Day 25] 资料产品在评估阶段的五个大坑

资料产品品质

使用的资源

成本

效益

Day 18: SOLID 设计原则 — OCP (待改进中... )

[Day 12] 实作 API Response 及 i18n Response Message

Day-02 建构Android开发环境

[Day6] Android - Kotlin笔记：RecycledViewPool

[Day3] 经典时间序列预测方法盘点

Day 18 ( 中级 ) 地球绕着太阳转

[23] 用 python 刷 Leetcode: 290 Word Pattern

[Day29] 沟通之术 - 老板篇

JS 27 - 平滑滚动，让视窗不再是闪电侠！

为了转生而点技能-javascript，day2(杂记-记忆体的回收机制-Not Defined VS undefined