Pyspark如何读取parquet数据
发表于:2024-11-14 作者:千家信息网编辑
千家信息网最后更新 2024年11月14日,这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。可以跳过不符合条件的数据,只读取需要的数据,
千家信息网最后更新 2024年11月14日Pyspark如何读取parquet数据
这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:
那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式, linux下的pycharm执行作说明。
首先,导入库文件和配置环境:
import osfrom pyspark import SparkContext, SparkConffrom pyspark.sql.session import SparkSession os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定 conf = SparkConf().setAppName('test_parquet')sc = SparkContext('local', 'test', conf=conf)spark = SparkSession(sc)
然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号
parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"df = spark.read.parquet(parquetFile)
而,DataFrame格式数据有一些方法可以使用,例如:
1.df.first() :显示第一条数据,Row格式
print(df.first())
2.df.columns:列名
3.df.count():数据量,数据条数
4.df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构
5.df.show():直接显示表数据;其中df.show(n) 表示只显示前n行信息
6.type(df):显数据示格式
上述就是小编为大家分享的Pyspark如何读取parquet数据了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
数据
格式
存储
内容
空间
结构
编码
分析
专业
中小
主机
信息
内容丰富
口号
向量
多个
就是
库文件
性能
数据结构
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全的小图标
昆山创新软件开发方法
怎么把表格改成数据库
海陵租房软件开发
网络安全群发信息
上海网络技术前景
计算机网络技术文科就业方向
前端和网络安全哪个工资高
人民网保险业网络安全高峰
谷歌方舟生存进化怎么创服务器
网站数据包括数据库数据吗
我国网络安全网络犯罪的现状
山东盛途互联网科技有限公司
互联网科技专业排名
数据库数据传输安全
华为软件开发云 ppt
软件开发框架python
网络安全协调局高林2020
战地3服务器管理员t人指令
入侵根服务器
张江有哪些软件开发的外企
多益网络技术类笔试
榆林软件开发定做
数据库设计e-r图
阿里云服务器挂载阿里云盘
数据库游标实验目的
魔兽服务器最大的公会
数据库日志可以关闭吗
怎么将自己电脑作为svn服务器
锐捷发的网络安全证书