Benjamin

静以修身,俭以养德,非澹薄无以明志,非宁静无以致远。
随笔 - 388, 文章 - 0, 评论 - 196, 引用 - 0
数据加载中……

HDFS简介

HDFS,其实是Hadoop Distributed File System的简称即分布式文件系统,基于Hadoop分布式集群来实现大规模数据存储。

HDFS对需要存储的数据,进行写入和读出,通过“目录树”来定位文件。当收到数据存储请求时,HDFS将文件进行分块(Block),一批数据会被分成若干个Block,然后分配到集群当中的计算机进行存储;当需要提取这些数据时,再通过定位文件所在位置,找到需要的数据。

基于这样划分数据块的做法,一个文件的大小可以大于网络中任意一个磁盘的容量。文件的所有块不需要存储在同一个磁盘上,因此它们可以利用集群上的任意一个磁盘进行存储。

简化了存储子系统的设计,将存储子系统控制单元设置为块,可简化存储管理,同时元数据就不需要和块一同存储,用一个单独的系统就可以管理这些块的元数据。并且,数据块适合用于数据备份进而提供数据容错能力和提高可用性。

HDFS进行数据存储时,涉及到三个节点,Namenode,Datanode以及Secondary Namenode。

Namenode:HDFS的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到那些数据节点上,它的主要功能是对内存及IO进行集中管理

Datanode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向namenode发送他们所存储的块的列表。

Secondary Namenode:辅助后台程序,与NameNode进行通信,以便定期保存HDFS元数据的快照。

posted on 2024-02-12 22:46 Benjamin 阅读(18) 评论(0)  编辑 收藏 引用 所属分类: 数据库


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理