欢迎来到第 28 天,昨天提到 MapReduce 的观念,今天要提到另一个 Hadoop 中的重点 HDFS(Hadoop Distributed File System)。
承如前天所提到的,所谓的大数据就是当资料量级大到无法储存於同一台服务器、电脑里的情况,在这种情况底下,资料储存就需要有特别的管理系统用以确保资料的完整性
在 HDFS 当中最核心的两个节点分别是
在讲解这两个节点时必须要先提到 HDFS 的储存方式,资料再存入 HDFS 前会被拆解成数个区块(Block),这区块会被复制多次并分别送到不同的 Datanode 上储存,这里要特别注意,被复制的区块与原始区块一定会被分配到不同的 Datanode 上以确保资料不会因为机器损坏而永久遗失,在储存到 Datanode 後,会在 Namenode 上纪录区块与 Datanode 之间的关系。
讲简单一点就是仓库与库存清单的关系,Datanode 就是储存资料的节点,Namenoe 就是一个清单纪录每一笔资料在哪个仓库。
刚刚有提到为了避免区块因为机器的损坏而让资料永久遗失,因此会将区块备份并储存於不同的节点上,但 Namenode 呢?为了避免类似的事情发生产生出了 Secondary Namenode 的解决方案,可以想像他就是一个备份,定期会备份原始 Namenode 的资料,以确保清单的完整性。
今天学习的就这麽多,明天就要提到最後一个模组 YARN,明天见!
<<: Day 26 - CDK 建置 Amazon Elastic Kubernetes Service(EKS)- Service
Samantha和Theodore在一起的时候,时常提及自己在写钢琴曲,灵感来自於和Theodore...
屯马开通真的很兴奋 早阵子(2021 年 6 月 27 日)港铁屯马綫全綫通车,当日有电视台访问了一...
经过昨天会写了一个简单的 Hello Extension 後, 发现应该要回报进度和共同学习交叉的分...
今天突然整个不知道要写什麽 @@ 一定是礼拜六要上课的关系 ## 今天呢 就来讲讲有关於 Rust ...
前言 首先,先来简单自我介绍下,学习期间我是有份与软件工程师完全无关的全职工作,但利用工作以外的其他...