千家信息网

HDFS的基本概念介绍

发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,1. HDFS的设计思路?  hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份,
千家信息网最后更新 2025年02月02日HDFS的基本概念介绍

1. HDFS的设计思路?

  hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。

1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理
2.每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失

2. HDFS的架构?


namenode:集群老大,掌管文件系统目录树,处理客户端读且请求
SecondaryNamenode:持久化元数据,主要给 namenode 分担压力之用
DataNode:存储整个集群所有数据块,处理真正数据读写

3. HDFS的特性?

  - HDFS 中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在 hadoop2.x 版本中是 128M,老版本中是 64M
  - HDFS 文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件
  - namenode 是 HDFS 集群主节点,负责维护整个 hdfs 文件系统的目录树,以及每一个路径(文件)所对应的 block 块信息(block 的 id,及所在的 datanode 服务器)
  - datanode 是 HDFS 集群从节点,每一个 block 都可以在多个 datanode 上存储多个副本(副本数量也可以通过参数设置 dfs.replication,默认是 3)
  - HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的修改

4. HDFS的优缺点?

  • 优点:
    • 可构建在廉价机器上,通过多副本提高可靠性,提供了容错和恢复机制
    • 高容错性,数据自动保存多个副本,副本丢失后,自动恢复
    • 适合批处理,移动计算而非数据,数据位置暴露给计算框架
    • 适合大数据处理,GB、TB、甚至 PB 级数据
    • 流式文件访问,一次性写入,多次读取,保证数据一致性
  • 缺点:
    • 低延迟数据访问,不适合于低延迟高吞吐
    • 小文件存取,不适用与小文件存储,占用空间,寻道时间超过读取时间
    • 不支持并发写入,和随机读取。hdfs同一时间只能有一个写入者,并且不支持多次插入,只能追加
文件 数据 副本 集群 存储 系统 多个 客户 客户端 时间 服务器 目录 处理 支持 服务 参数 可以通过 大小 版本 节点 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 聊天女仆为什么服务器超时 黑莓手机软件开发 幻塔安卓和苹果互通需要服务器吗 抢红包显示服务器错误怎么回事 网络电视未能连接服务器 镇江讯恒网络技术有限公司 农安通用网络技术服务互惠互利 网络安全全景图调研 国泰元兴北京网络技术有限公司 上海软件开发定制公司如何选择 命令行开启数据库服务器 大麦网安全中心人工服务器 数据库开发毕业答辩ppt 开阳天气预报软件开发 中安网络安全培训靠谱吗 服务器端修改表单数据 Wind数据库免费使用吗 java服务器开发游戏框架 php模板数据库设计 互联网科技mcn创业孵化 抗战胜利 网络安全借势营销 华为属于科技公司还是互联网公司 3d绘图软件开发流程 网络安全高级专家 广播电视网络技术 教材 x86服务器厂商何其多 网络技术开发公司盈利方式 阿里云邮箱服务器类型 腾讯云轻量服务器怎么自定义镜像 设置服务器ip地址什么意思
0