导航：首页 > 互联网科技 >

Pyspark如何读取parquet数据

发表于：2024-11-14 作者：千家信息网编辑

千家信息网最后更新 2024年11月14日，这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。可以跳过不符合条件的数据，只读取需要的数据，

千家信息网最后更新 2024年11月14日Pyspark如何读取parquet数据

这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式， linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import osfrom pyspark import SparkContext, SparkConffrom pyspark.sql.session import SparkSession os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定 conf = SparkConf().setAppName('test_parquet')sc = SparkContext('local', 'test', conf=conf)spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())

2.df.columns：列名

3.df.count()：数据量，数据条数

4.df.toPandas()：从spark的DataFrame格式数据转到Pandas数据结构

5.df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

6.type(df)：显数据示格式

上述就是小编为大家分享的Pyspark如何读取parquet数据了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注行业资讯频道。

很赞哦！

数据格式存储内容空间结构编码分析专业中小主机信息内容丰富口号向量多个就是库文件性能数据结构数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全网络安全的小图标昆山创新软件开发方法怎么把表格改成数据库海陵租房软件开发网络安全群发信息上海网络技术前景计算机网络技术文科就业方向前端和网络安全哪个工资高人民网保险业网络安全高峰谷歌方舟生存进化怎么创服务器网站数据包括数据库数据吗我国网络安全网络犯罪的现状山东盛途互联网科技有限公司互联网科技专业排名数据库数据传输安全华为软件开发云 ppt 软件开发框架python 网络安全协调局高林2020 战地3服务器管理员t人指令入侵根服务器张江有哪些软件开发的外企多益网络技术类笔试榆林软件开发定做数据库设计e-r图阿里云服务器挂载阿里云盘数据库游标实验目的魔兽服务器最大的公会数据库日志可以关闭吗怎么将自己电脑作为svn服务器锐捷发的网络安全证书

千家信息网

千家信息网

Pyspark如何读取parquet数据

怎么安装appium-desktop

python中如何使用elif条件语句

相关文章