Hadoop中HDFS小文件产生场景及其处理方案
发表于:2025-01-24 作者:千家信息网编辑
千家信息网最后更新 2025年01月24日,影响: 1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode的内存,制约集群的扩展。(主要影响) 2、在对小文件进行处理的时候,一个
千家信息网最后更新 2025年01月24日Hadoop中HDFS小文件产生场景及其处理方案
影响: 1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode的内存,制约集群的扩展。(主要影响) 2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个maptask会起一个jvm进程,进程的开启销毁会严重性能。(jvm复用)产生场景: 1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储 到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。 2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件。 创建表结构相同的表,create table t_new as select * from t_old; 老表根据实际情况可以删除就删除。 3、hive中执行简单过滤操作,符合过滤条件的数据存在很多block块中,只走map,map输出有很多小文 件。 开启map端的聚合。 4、mapreduce正常执行产生小文件。 将mapreduce输出不直接写hdfs,而是写入到hbase中。 设置map端文件合并及reduce端文件合并。 5、输入数据文件为小文件。 小文件合并后再计算。 CombineFileInputFormat: 它是一种新的inputformat,用于将多个文件合并成一个单独的 split,另外,它会考虑数据的存储位置。通用处理方案:1、Hadoop Archive Hadoop Archive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样在减少namenode内存使用的同时,仍然允许对文件进行透明的访问。2、Sequence file sequence file由一系列的二进制key/value组成,如果为key小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。底层处理方案:HDFS-8998: DataNode划分小文件区,专门存储小文件。一个block块满了开始使用下一个block。HDFS-8286: 将元数据从namenode从内存移到第三方k-v存储系统中。 HDFS-7240: Apache Hadoop Ozone,hadoop子项目,为扩展hdfs而生。
文件
数据
处理
存储
内存
方案
多个
情况
进程
并成
影响
输出
场景
相同
差不多
二进制
位置
内容
同时
子项
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
h1z1生存那个服务器
重庆考警校网络安全要多少分
洛阳市网络安全宣传活动
有人能够颠覆现有的网络技术吗
云化软件开发
为什么学习软件开发
北京迪姆软件开发公司
网络安全内部资料不发
linux服务器客户端
银川共享陪护床软件开发
服务器解析域名教程
数模与软件开发有关系吗
学校计算机与网络安全讲座
数据库系统实现 英文
特斯拉服务器调试
软件开发为虚拟币服务违法
锐捷网络安全专员应届生工资
内部邮件服务器
网络安全专家谭晓生视频
查询当前数据库的用户名
给领导做网络安全意识培训
数据库代码建表
网络安全应对培训会
gdc服务器安全管理器
方舟服务器管理员菜单中文
简述数据库技术基本知识
数据软件开发就业方向
公安开展网络安全知识科普简报
娱乐系统软件开发流程
unity 自带服务器