spark union 特别注意
发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,今天遇到一个很诡异的问题。表Auseridhousecoderesctimeu1code111301表Buseridhousecoderesctimeu2code201302表Cuseridnamet
千家信息网最后更新 2025年01月22日spark union 特别注意
今天遇到一个很诡异的问题。
表A
userid | housecode | res | ctime |
---|---|---|---|
u1 | code1 | 1 | 1301 |
表B
userid | housecode | res | ctime |
---|---|---|---|
u2 | code2 | 0 | 1302 |
表C
userid | name | type | time |
---|---|---|---|
u1 | 大海 | 0 | 1303 |
然后对表A进行处理操作
表A.createOrReplaceTempView("t1");
JavaRDD
t1= s.createDataFrame(rdd, HistoryModelExt.class);
然后查看t1, t1.show()
u1 | code1 | 1 | 1301 |
---|---|---|---|
.. | .. | .. | .. |
数据还在,然后 B union A 然后 join C(通过userid), 理论上应该是有结果的,感觉就像1+1=2 这么肯定,但是还真没有数据,非常诧异。
刚开始以为是自己程序哪里有问题,苦苦寻找,发现一切正常, 最后回到 union这个方法上。
为了看清楚前因后果, 我把B union A的数据打印了出来,发现了一个奇怪的事情
userid | housecode | res | ctime |
---|---|---|---|
u2 | code2 | 0 | 1302 |
1301 | code1 | 1 | u1 |
当时一下子就明白为什么join 没有数据了, A的schema已经与B不一致了。
原来 union函数并不是按照列名合并,而是按照位置合并。
但是在JavaRDD
查看源代码
/** * Applies a schema to an RDD of Java Beans. * * WARNING: Since there is no guaranteed ordering for fields in a Java Bean, * SELECT * queries will return the columns in an undefined order. * * @since 2.0.0 */ def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = { val attributeSeq: Seq[AttributeReference] = getSchema(beanClass) val className = beanClass.getNameval rowRdd = rdd.mapPartitions { iter => // BeanInfo is not serializable so we must rediscover it remotely for each partition. SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq) } Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self)) }
看注释,fields的顺序是不保证的, 原来如此。
这样你在union前乖乖的执行
t1.select("userId","houseCode","res","ctime");
这样顺序就又恢复了,大数据排查问题特别麻烦,感觉是一个很大的坑,希望能帮到后来人。
数据
问题
一致
感觉
顺序
很大
诡异
诧异
前因后果
原来如此
乖乖
事情
位置
函数
后来人
大海
对象
方法
是在
注释
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
商用密码服务器证书服务
数据库2005p4安装步骤
网络安全威胁分类有哪些
ps5育碧服务器连不上解决
太原叠威网络技术
包月云服务器
数据库第六章作业答案
顺义旧服务器回收电话
池州软件开发公司官网
数字科技和互联网是不同的路
组态王数据库创建不了表格
想自学网络安全怎么学
塔纳利斯 服务器
智虎科技 工业互联网
安卓软件开发计划
苹果qq邮箱怎么设置收件服务器
vb 代码新建数据库
南京环保软件开发节能规范
计算机网络技术的演讲稿
广东交友软件开发哪家正规
服务器托管报价单
手机上有数据库的软件吗
银川在哪可以学软件开发
数据库第六章作业答案
spark模型如何存入数据库
软件开发需要用什么笔记本
图形 服务器
如何开展网络文明网络安全教育
巩义市枫华网络技术有限公司
大同现代化网络安全创新服务