spark union 特别注意
发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,今天遇到一个很诡异的问题。表Auseridhousecoderesctimeu1code111301表Buseridhousecoderesctimeu2code201302表Cuseridnamet
千家信息网最后更新 2025年02月23日spark union 特别注意
今天遇到一个很诡异的问题。
表A
userid | housecode | res | ctime |
---|---|---|---|
u1 | code1 | 1 | 1301 |
表B
userid | housecode | res | ctime |
---|---|---|---|
u2 | code2 | 0 | 1302 |
表C
userid | name | type | time |
---|---|---|---|
u1 | 大海 | 0 | 1303 |
然后对表A进行处理操作
表A.createOrReplaceTempView("t1");
JavaRDD
t1= s.createDataFrame(rdd, HistoryModelExt.class);
然后查看t1, t1.show()
u1 | code1 | 1 | 1301 |
---|---|---|---|
.. | .. | .. | .. |
数据还在,然后 B union A 然后 join C(通过userid), 理论上应该是有结果的,感觉就像1+1=2 这么肯定,但是还真没有数据,非常诧异。
刚开始以为是自己程序哪里有问题,苦苦寻找,发现一切正常, 最后回到 union这个方法上。
为了看清楚前因后果, 我把B union A的数据打印了出来,发现了一个奇怪的事情
userid | housecode | res | ctime |
---|---|---|---|
u2 | code2 | 0 | 1302 |
1301 | code1 | 1 | u1 |
当时一下子就明白为什么join 没有数据了, A的schema已经与B不一致了。
原来 union函数并不是按照列名合并,而是按照位置合并。
但是在JavaRDD
查看源代码
/** * Applies a schema to an RDD of Java Beans. * * WARNING: Since there is no guaranteed ordering for fields in a Java Bean, * SELECT * queries will return the columns in an undefined order. * * @since 2.0.0 */ def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = { val attributeSeq: Seq[AttributeReference] = getSchema(beanClass) val className = beanClass.getNameval rowRdd = rdd.mapPartitions { iter => // BeanInfo is not serializable so we must rediscover it remotely for each partition. SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq) } Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self)) }
看注释,fields的顺序是不保证的, 原来如此。
这样你在union前乖乖的执行
t1.select("userId","houseCode","res","ctime");
这样顺序就又恢复了,大数据排查问题特别麻烦,感觉是一个很大的坑,希望能帮到后来人。
数据
问题
一致
感觉
顺序
很大
诡异
诧异
前因后果
原来如此
乖乖
事情
位置
函数
后来人
大海
对象
方法
是在
注释
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
用pycharm打开数据库
党委主要负责人 网络安全
dns服务器地址指内网吗
数据库创建聚簇索引
服务器上装什么安全软件好
周鸿祎分布式网络安全大脑
怎么搭建自己的服务器
成都互联网公司登临科技
安防视频网络安全
通信运营商网络安全管理规定
如何访问家里电脑的数据库
oracle数据库入门
网络安全罚第四十六条
网络安全的内容包括哪几个方面
淘宝推广属于网络技术
CRT中打开数据库的命令
馨陪陪互联网科技
游戏软件开发的市场背景
计算机网络技术薪资怎样
剑灵s3模型截图数据库
杭电数据库原理
一师健康行授权咨询服务器异常
互联网科技公司 销售岗位
民政局数据库登记贫困困境儿童
北京西岐网络技术开发
依米康有数据库吗
软件开发QB
db2退出数据库连接命令
dsp软件开发流程图
服务器推出