HDFS的基本概念介绍
发表于:2024-11-19 作者:千家信息网编辑
千家信息网最后更新 2024年11月19日,1. HDFS的设计思路? hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份,
千家信息网最后更新 2024年11月19日HDFS的基本概念介绍
1. HDFS的设计思路?
hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。
1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理
2.每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失
2. HDFS的架构?
namenode:集群老大,掌管文件系统目录树,处理客户端读且请求
SecondaryNamenode:持久化元数据,主要给 namenode 分担压力之用
DataNode:存储整个集群所有数据块,处理真正数据读写
3. HDFS的特性?
- HDFS 中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在 hadoop2.x 版本中是 128M,老版本中是 64M
- HDFS 文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件
- namenode 是 HDFS 集群主节点,负责维护整个 hdfs 文件系统的目录树,以及每一个路径(文件)所对应的 block 块信息(block 的 id,及所在的 datanode 服务器)
- datanode 是 HDFS 集群从节点,每一个 block 都可以在多个 datanode 上存储多个副本(副本数量也可以通过参数设置 dfs.replication,默认是 3)
- HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的修改
4. HDFS的优缺点?
- 优点:
- 可构建在廉价机器上,通过多副本提高可靠性,提供了容错和恢复机制
- 高容错性,数据自动保存多个副本,副本丢失后,自动恢复
- 适合批处理,移动计算而非数据,数据位置暴露给计算框架
- 适合大数据处理,GB、TB、甚至 PB 级数据
- 流式文件访问,一次性写入,多次读取,保证数据一致性
- 缺点:
- 低延迟数据访问,不适合于低延迟高吞吐
- 小文件存取,不适用与小文件存储,占用空间,寻道时间超过读取时间
- 不支持并发写入,和随机读取。hdfs同一时间只能有一个写入者,并且不支持多次插入,只能追加
文件
数据
副本
集群
存储
系统
多个
客户
客户端
时间
服务器
目录
处理
支持
服务
参数
可以通过
大小
版本
节点
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
魔兽满载服务器
陕西先通网络技术学校pte
高效阅读软件开发者
淄博网络安全广告
服务器管理器角色列表少
信格网络技术有限公司
手持扫码枪链接数据库
软件开发放管理费用什么科目
国泰安数据库怎么筛选代码
网络软件开发收费
教科版网络技术
数据库审计如何工作
数据库安全审计的条件
迷你西游服务器查询
web服务器需要安装系统补丁吗
iso的网络安全体系中安全服务
河南华为服务器维修维保多少钱
网络安全制度落实情况总结
服务器和数据库管理规定
巨杉数据库限时免费
常熟创新软件开发售后服务
北京质量软件开发推广
数据库导出 记录增量
163邮箱服务器连接错误
服务器设备管理器 cpu
数据库数据更改后怎么查看源数据
文件夹上传到服务器
关于网络安全的审计报告
聚铭网络安全吗
计算机网络技术文理都可学吗