Hadoop HDFS
Hadoop文件系统利用漫衍式文件系统设计开拓。它是运行在普通硬件。不像其他的漫衍式系统,HDFS是高度容错以及利用低本钱的硬件设计。
HDFS拥有超大型的数据量,并提供更轻松地会见。为了存储这些复杂的数据,这些文件都存储在多台呆板。这些文件都存储以冗余的方法来拯救系统免受大概的数据损失,在产生妨碍时。 HDFS也使得可用于并行处理惩罚的应用措施。
HDFS的特点
HDFS架构
下面给出是Hadoop的文件系统的体系布局。
HDFS遵循主从架构,它具有以下元素。
名称节点 – Namenode
名称节点是包括GNU/Linux操纵系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。具有名称节点系统作为主处事器,它执行以下任务:
数据节点 – Datanode
Datanode具有GNU/Linux操纵系统和软件Datanode的普通硬件。对付集群中的每个节点(普通硬件/系统),有一个数据节点。这些节点打点数据存储在它们的系统。
块
一般用户数据存储在HDFS文件。在一个文件系统中的文件将被分别为一个或多个段和/或存储在小我私家数据的节点。这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块巨细为64MB,但它可以增加按需要在HDFS设置来改变。
HDFS的方针
妨碍检测和规复:由于HDFS包罗大量的普通硬件,部件妨碍频繁。因此HDFS应该具有快速和自动妨碍检测和规复机制。
庞大的数据集:HDFS有数百个集群节点来打点其复杂的数据集的应用措施。
数据硬件:请求的任务,当计较产生不久的数据可以高效地完成。涉及庞大的数据集出格是它淘汰了网络通信量,并增加了吞吐量。