大数据平台：分散式计算

Spark
支援批次资料、查询分析、资料流、机器学习及图处理(Graph Processing)，以「弹性分散式资料集(Resilient Distributed Datasets, RDD)支援「资料切片」及「资料回朔」等特点，实现了「记忆体内计算(In-memory computing)」及「流程优化(Processes Optimization)」等功能。
Flink
分散式资料流计算架构，在即时的资料查询、反诈欺、资料分析、线上模型训练和业务流程监控等场景，提供毫秒等级的运算满足业务需求。
Beam
一个分散式计算的通用架构，定义了了资料批次处理和资料流处理的「程序编程接口(Application Programming Interface, API)」统一标准，可以对接 Spark 及 Flink。
- PCollection
  代表资料及与资料流的资料集，只能唯读循序读取，每笔资料都会附加时间戳记(Timestamp)。
- PTransform
  采用函式语言程序设计(Functional Programming)提高系统的可测试性与平行处理效能。
- Pipeline
  由 PCollection 以及 PTransform 资料处里的运算流程图。