[Day 28] HDFS

欢迎来到第 28 天，昨天提到 MapReduce 的观念，今天要提到另一个 Hadoop 中的重点 HDFS(Hadoop Distributed File System)。

承如前天所提到的，所谓的大数据就是当资料量级大到无法储存於同一台服务器、电脑里的情况，在这种情况底下，资料储存就需要有特别的管理系统用以确保资料的完整性

架构

在 HDFS 当中最核心的两个节点分别是

Namenode
Datanode

在讲解这两个节点时必须要先提到 HDFS 的储存方式，资料再存入 HDFS 前会被拆解成数个区块（Block），这区块会被复制多次并分别送到不同的 Datanode 上储存，这里要特别注意，被复制的区块与原始区块一定会被分配到不同的 Datanode 上以确保资料不会因为机器损坏而永久遗失，在储存到 Datanode 後，会在 Namenode 上纪录区块与 Datanode 之间的关系。

讲简单一点就是仓库与库存清单的关系，Datanode 就是储存资料的节点，Namenoe 就是一个清单纪录每一笔资料在哪个仓库。

Secondary Namenode

刚刚有提到为了避免区块因为机器的损坏而让资料永久遗失，因此会将区块备份并储存於不同的节点上，但 Namenode 呢？为了避免类似的事情发生产生出了 Secondary Namenode 的解决方案，可以想像他就是一个备份，定期会备份原始 Namenode 的资料，以确保清单的完整性。

今天学习的就这麽多，明天就要提到最後一个模组 YARN，明天见！

<<: Day 26 - CDK 建置 Amazon Elastic Kubernetes Service（EKS）- Service

>>: [Day27] AWS Data Pipeline

[Day 28] HDFS

架构

Secondary Namenode

Day 9 - Functional Programming 初探 (2) - Currying 与 Composition

DAY17: 实作提交表单的Post请求

Day 29 - 使用 CDK 创建 WordPress

Day 27 : 使用 TensorFlow Serving 部署 REST API

Day 10: Say No & Say Yes (待改进中... )

Day 16：AWS是什麽？30天从动漫/影视作品看AWS服务应用 -《云端情人》part 3

Intro

[拯救上班族的 Chrome 扩充套件] 规划架构和使用情境

[Day7] struct 结构体

[Day 1] 参赛宣言