大数据平台：分散式档案

在网路之上的多个服务器节点建立了个巨量储存空间和高吞吐(Throughput)的档案系统，使用时无须关心档案的物理储存方式，可以像使用本地档案系统一样管理档案及资料夹。

是 Hadoop 「数据生态圈」的重要基础设施：
* 具备「故障检测和隔离(Fault Detection and Isolation, FDI)」能力
* 透过资料「副本机制」获得了更好的容错能力
* 适合大型档案以及巨量资料的批次处理

具有一些明显的限制：
* 采用一致性模型有较高的读写延迟
* 不适用用於即时性服务
* NameNode 可能会造成单点故障

系统高可用性：
可以透过 NFS 来同步主从 NameNode 的资料备份，可以快速的故障转移到热备援的 NameNode，提升系统的可用性。
水平扩充能力：
可以利用 Federation 机制提高系统的水平扩充能力，将全域的档案目录切割到多个 NameSpace 後分配到多个独立的 NameNode 管理，共享所有 DataNode 的储存资料。
- Raid 6 标准的里德-所罗门码(Reed-Solomon Codes, RS Codes)资料储存方法
- 多个热备援的 NameNode
- DataNode 的资料平衡机制