什么是Parquet列存储模式
发表于:2025-02-12 作者:千家信息网编辑
千家信息网最后更新 2025年02月12日,本篇内容主要讲解"什么是Parquet列存储模式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"什么是Parquet列存储模式"吧!简介Apache Par
千家信息网最后更新 2025年02月12日什么是Parquet列存储模式
本篇内容主要讲解"什么是Parquet列存储模式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"什么是Parquet列存储模式"吧!
简介
Apache Parquet 是一种能够有效存储嵌套数据的列存储格式。(列式存储格式在文件大小和查询性能上表现优秀) Parquet 的突出贡献在于能够以真正的列式存储格式来保存具有深度嵌套结构的数据。 参考博客-简书
数据模型
原子类型
类型 | 描述 |
---|---|
boolean | 二进制值 |
int32 | 32位有符号整数 |
int64 | 64位有符号整数 |
int96 | 96位有符号整数 |
float | (32位)IEEE754单精度浮点数 |
double | (64位)IEEE754单精度浮点数 |
binary | 8位无符号字节序列 |
fixed_len_byte_array | 固定数量的8位无符号字节 |
一个简单的Parquet模式:
message WeatherRecord{ required int32 year; required int32 temperature; required binary stationId (UTF-8);}
parquet 的原子类型不包括字符串类型。required binary stationId (UTF-8); 表示字符串
逻辑类型
逻辑类型注解 | 描述 | 模式示例 |
---|---|---|
UTF-8 | 由UTF-8字符组成的字符串,可用于 注解binary | message m { required binary a (UTF-8); } |
ENUM | 命名值的集合,可用于binary | message m { required binary a (ENUM); } |
DECIMAL (precision,scale) | 任意精度的有符号小数,可用于注解 int32、int64、binary或fixed_len_byte_array | message m { required int32 a (DECIMAL(5,2)); } |
DATE | 不带时间的日期值,可用于注解int32. 用Unix元年(1970年1月1日)以来的天 数表示 | message m { required int32 a (DATE); } |
LIST | 一组有序的值,可用于注解group | message m { required group a (LIST){ required group list{ required int32 element; } } } |
MAP | 一组无序的键-值对,可用于注解group | message m { required group a (MAP){ required group key_value{ required binary key (UTF-8); optional int32 value; } } } |
Parquet文件格式
Paruet文件由一个文件头,一个或多个紧随其后的文件块,以及一个用于结尾的文件尾构成。文件头中仅包含一个称为PAR1的4个字节数字,它用来识别整个Parquet文件格式。文件的所有元数据都被保存在文件尾中。
Parquet的配置
在设置文件块的大小时需要折中考虑扫描率与内存的使用。较大的文件块包含较多的行,因此扫描效率更高。同时也可以提高顺序I/O操作的效率(因为在设置列块时的额外开销比较少)。但是,每个文件块在读/写操作时都需要缓存在内存中,这个限制使得文件块不能太大。默认的文件块为128MB.
到此,相信大家对"什么是Parquet列存储模式"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
文件
存储
注解
符号
类型
UTF-8
模式
格式
字符
数据
字符串
字节
整数
内存
内容
单精度
原子
大小
效率
点数
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发读研
服务器参数8c什么意思
法大网络安全技术与应用
肇庆家政软件开发联系方式
360代理服务器认证
eui用什么数据库数据类型
幻想神域服务器维护
网络安全主要学习什么
工业软件开发用什么编程语言
网络安全宝贵提议
数据库原理高频词
恒生互联网科技和恒生科技
安全模式进入服务器
公司代理服务器登录不上怎么办
wincc如何打开opc服务器
搜索网网络安全为主的手抄报
sql怎么备份另一台电脑数据库
商丘软件开发有限公司
nagios数据库
网络安全内容资料20字
网络安全考试156题及答案
网络技术与管理学科排名
博图在线更新显示连接不上服务器
航天金控安全接入服务器地址
微付网络技术有限公司
青岛销售软件开发平台的公司
工学跨考研网络安全
软件开发中的职务有什么
广州工控软件开发大概多少钱
服务器修复中