[Day 19] 资料产品的管理-资料治理初探

前面花了不少篇幅在讨论资料产品的开发,接下来将花一些篇幅讨论资料产品的治理方式。

在做资料产品治理时,有一个很重要的观念「将资料当作资产」。如果前面介绍过的,资料是根据特定的目的蒐集,需要将资料当作策略性的资产来管理。资料管理需要人、流程、以及科技的相互配合,也需要一定的资源投入已经公司支持,而且会牵涉到整个公司的系统和人员。

我们将初步介绍下图这个满通用的资料治理框架:

https://ithelp.ithome.com.tw/upload/images/20210919/20141140XmcgxWQOd4.png
(https://edge.siriuscom.com/data/8-ways-to-ensure-a-strong-data-governance-framework)

资料服务

企业中的资料其实会跨越组织的各个部门,因此在管理上需要设置一个专职的人员来处理这些资料的日常维运。这个人需要跨部门的综观所有资料的状况,以此来管理资料、定义资料治理规范等。

资料品质

如同一开始所说,「Garbage in, Garbage out」。资料品质需要在资料产品的各个流程中严格把关,透过适当的技术或规范来确保资料品质的一致性。

Metadata 管理

Metadata 纪录以及定义了资料资产。每个资料集都会有针对这个资料集的简单说明、栏位内容的定义、或是每次栏位变动时的更新纪录,这些资料可以帮助我们了解资料资产的用途。

资料关联

原始资料会根据需求产生其他加工资料,这些资料之间的关联也需要被记录下来。当上游资料发生异动的时候可以迅速盘点受到影响的下游;或是当下游资料发生问题的时候,可以迅速盘点可能出问题的上游。

资料安全

资料安全是个很直白的议题,一家企业中的资料会依据重要等级不同来管理可以接触这些资料使用者。例如最原始的财务资料就只有财务相关人员才能接触,资料科学家如果想要使用相关的资料需要特别的授权,或是资料要经过特别处理才能被使用。

资料隐私

在处理客户资料时需要特别注意隐私相关议题。特别是在 GDPR 推出後,各个国家都更重视使用者的隐私权。不只是电话或是 Email,只要任何有机会辨识出原始使者的资料都要特别小心处理。

资讯生命周期管理

资料也是有其生命周期,从出生到被淘汰或封存,都需要制定相关的标准、政策和流程来管理。一笔两笔资料看起来可能没什麽,但是长期累积下来也是非常占用磁碟空间、也会造成计算以及处理上的负担。所以需要根据需求适时的根据资料类型来管理生命周期。像是使用者点击的资料,原始资料只需要留一年、汇整过的聚合资料可以留五年;那如果是使用者的病历资料,那就需要永久的保留,无法删除。

资料治理是一个非常大的议题,後续我们会再针对个别面向做更深入的讨论和说明。

References

https://edge.siriuscom.com/data/8-ways-to-ensure-a-strong-data-governance-framework


<<:  D18 第九周 (回忆篇)

>>:  Material UI in React [ Day 18 ] Drawer (侧边栏)

Day 30 後记-TUTK跟一些P2P介绍

Tutkt P2P使用方法介绍: 连接原理为: (1) -> Device向P2P Serve...

DAY26 深度学习-卷积神经网路-Yolo V1

接续昨天的文章,今天介绍一下Yolo v1的Loss Function,由於在训练的时候我们当然希...

NIST SDLC和RMF

安全控制是风险处理的一部分,风险评估之後进行。安全控制的范围是根据风险评估的结果确定的。根据NIST...

[Day8] THM Bolt

今天再来试玩一个 Try Hack Me 上面的简单题目,攻打一个 CMS (Content Man...

某航空裁员後被骇

故事依时间序简述 故事背景:某航空公司(以下简称某航) 某航於2017上半年裁员,共计裁减约600名...