在评估阶段有几件面向需要注意
资料产品品质是需要持续监控和评估的。不同层的资料产品有不同的品质指标,基本上很难一次到位,需要持续增加观察的指标。例如原始资料一开始可能只会监控资料量、接着再加上检查每个栏位极值、之後再加上一些统计指标确认分布。
生产资料产品也是需要资源的,这些资源包括网路传输、硬碟、CPU、Memory、处理时间等。我们需要持续监控这些生产资料产品时的资源指标。
呈上,既然需要资源,就表示有相应的成本。地端环境的成本相对好计算,只要掌握节点数量、网路费用、电费就差不多了。但是在云端环境上就很复杂了。资料产品每一层都会对应到不同的资源,这边以 AWS 为例:
原始资料
原始资料会从 App 端直接送到 Kinesis 或是 API Getway,後续会需要像是 Lambda 或 Farget 之类的资源来将资料落地到 S3 或 RDS 、Elastic Search 里面。
加工资料
在 AWS 上,可以透过 EMR 或是 Athena 来处理大量资料,小量资料可以 EC2 或是 Lamda 来处理。
模型
模型可以透过 Sagemaker 或 EC2、EMR 来训练或处理。
辅助决策
我们可以利用 k8s 或 EC2 来架设 BI 工具。BI 工具可以直接使用 RDS 或 Athena 来做 SQL 计算。
自动决策
通常自动决策系统会需要提供 API 给其他 Application 使用,因此会将模型部署到 Lambda、Sagemaker 或 k8s 上来让其他应用呼叫。
除了直接的资料产品使用的资源外,当然还有像是监控或 Logging 等辅助工具需要 $$,像是 Cloudwatch、Promethues 之类的。这些云端工具通常就是根据使用量来算钱,但是在制作资料产品(特别是分析或建模)时,往往很难事先预估可能使用的资源量(例如要拉多少资料、要下几次 Query 之类的)。
资料产品对於商业带来的效益是难以估算的,就是字面上的意思,「难以估算」。虽然残酷,但是前三层的资料产品不管做得多少,都看不到价值。资料产品一定得做到辅助决策或是自动决策才看得到价值,其中又以自动决策带来的价值更好估算,像是自动语音减少了多少人力、广告推荐增加了多少点击等等。
>>: [第十只羊] 迷雾森林舞会III 参见排版神器 Tailwind
地球绕着太阳转 教学原文参考:地球绕着太阳转 这篇文章会介绍,如何在 Scratch 3 里使用重复...
因为我对 python 不熟,题目可能会在简单和中等之间跳来跳去 用 Python3 解 LeetC...
今天是倒数第二天了~这个系列也快结束了,今天就以跟老板相处的过程时,老板给的提点来做个小结尾吧! 前...
大家好! 我们今天要实作让视窗能平滑地滚动到锚点。 我们进入今天的主题吧! 程序码 (functio...
Not Defined VS undefined undefined: 在创造阶段只有变数在记忆体里...