[Day 28] HDFS

欢迎来到第 28 天,昨天提到 MapReduce 的观念,今天要提到另一个 Hadoop 中的重点 HDFS(Hadoop Distributed File System)。

承如前天所提到的,所谓的大数据就是当资料量级大到无法储存於同一台服务器、电脑里的情况,在这种情况底下,资料储存就需要有特别的管理系统用以确保资料的完整性

架构

在 HDFS 当中最核心的两个节点分别是

  • Namenode
  • Datanode

在讲解这两个节点时必须要先提到 HDFS 的储存方式,资料再存入 HDFS 前会被拆解成数个区块(Block),这区块会被复制多次并分别送到不同的 Datanode 上储存,这里要特别注意,被复制的区块与原始区块一定会被分配到不同的 Datanode 上以确保资料不会因为机器损坏而永久遗失,在储存到 Datanode 後,会在 Namenode 上纪录区块与 Datanode 之间的关系。

讲简单一点就是仓库与库存清单的关系,Datanode 就是储存资料的节点,Namenoe 就是一个清单纪录每一笔资料在哪个仓库。

Secondary Namenode

刚刚有提到为了避免区块因为机器的损坏而让资料永久遗失,因此会将区块备份并储存於不同的节点上,但 Namenode 呢?为了避免类似的事情发生产生出了 Secondary Namenode 的解决方案,可以想像他就是一个备份,定期会备份原始 Namenode 的资料,以确保清单的完整性。

今天学习的就这麽多,明天就要提到最後一个模组 YARN,明天见!


<<:  Day 26 - CDK 建置 Amazon Elastic Kubernetes Service(EKS)- Service

>>:  [Day27] AWS Data Pipeline

Day 16:AWS是什麽?30天从动漫/影视作品看AWS服务应用 -《云端情人》part 3

Samantha和Theodore在一起的时候,时常提及自己在写钢琴曲,灵感来自於和Theodore...

Intro

屯马开通真的很兴奋 早阵子(2021 年 6 月 27 日)港铁屯马綫全綫通车,当日有电视台访问了一...

[拯救上班族的 Chrome 扩充套件] 规划架构和使用情境

经过昨天会写了一个简单的 Hello Extension 後, 发现应该要回报进度和共同学习交叉的分...

[Day7] struct 结构体

今天突然整个不知道要写什麽 @@ 一定是礼拜六要上课的关系 ## 今天呢 就来讲讲有关於 Rust ...

[Day 1] 参赛宣言

前言 首先,先来简单自我介绍下,学习期间我是有份与软件工程师完全无关的全职工作,但利用工作以外的其他...