大数据平台:分散式计算

  • Spark
    支援批次资料、查询分析、资料流、机器学习及图处理(Graph Processing),以「弹性分散式资料集(Resilient Distributed Datasets, RDD)支援「资料切片」及「资料回朔」等特点,实现了「记忆体内计算(In-memory computing)」及「流程优化(Processes Optimization)」等功能。
  • Flink
    分散式资料流计算架构,在即时的资料查询、反诈欺、资料分析、线上模型训练和业务流程监控等场景,提供毫秒等级的运算满足业务需求。
  • Beam
    一个分散式计算的通用架构,定义了了资料批次处理和资料流处理的「程序编程接口(Application Programming Interface, API)」统一标准,可以对接 Spark 及 Flink。
    • PCollection
      代表资料及与资料流的资料集,只能唯读循序读取,每笔资料都会附加时间戳记(Timestamp)。
    • PTransform
      采用函式语言程序设计(Functional Programming)提高系统的可测试性与平行处理效能。
    • Pipeline
      由 PCollection 以及 PTransform 资料处里的运算流程图。

<<:  Day12 探讨urls(2)

>>:  D-3.Line_pay_api 串接(二) V3 Request API

[Day 20] Sass - Using @extend

哈罗~今天来聊聊跟@mixin的兄弟 @extend 我们平常在写css时,时常会把class们相同...

Day 28 Easy x 2

Day 28 Easy x 2 LeetCode 100 题 待优化的两题 Guess Number...

【程序】基础沟通问题 转生成恶役菜鸟工程师避免 Bad End 的 30 件事 - 27

基础沟通问题 存好心做好事 克己复礼 宽以待人 以人为本 累积信用 ...

[Day24] Scrum 的交付与迭代迷思

「Scrum 说每个 Sprint 结束,都应该有可以使用的新功能释出,如果一个 Story 在一个...