Hive中Map端JOIN的示例分析
发表于:2025-01-20 作者:千家信息网编辑
千家信息网最后更新 2025年01月20日,小编给大家分享一下Hive中Map端JOIN的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Map端JOINmap
千家信息网最后更新 2025年01月20日Hive中Map端JOIN的示例分析
小编给大家分享一下Hive中Map端JOIN的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
Map端JOIN
map端join适用于当一张表很小(可以存在内存中)的情况,即可以将小表加载至内存。Hive从0.7开始支持自动转为map端join,具体配置如下:
SET hive.auto.convert.join=true; -- hivev0.11.0之后默认true
SET hive.mapjoin.smalltable.filesize=600000000; -- 默认 25m
SET hive.auto.convert.join.noconditionaltask=true; -- 默认true,所以不需要指定map join hint
SET hive.auto.convert.join.noconditionaltask.size=10000000; -- 控制加载到内存的表的大小
一旦开启map端join配置,Hive会自动检查小表是否大于hive.mapjoin.smalltable.filesize
配置的大小,如果大于则转为普通的join,如果小于则转为map端join。
关于map端join的原理,如下图所示:
首先,Task A(客户端本地执行的task)负责读取小表a,并将其转成一个HashTable的数据结构,写入到本地文件,之后将其加载至分布式缓存。
然后,Task B任务会启动map任务读取大表b,在Map阶段,根据每条记录与分布式缓存中的a表对应的hashtable关联,并输出结果
注意:map端join没有reduce任务,所以map直接输出结果,即有多少个map任务就会产生多少个结果文件。
以上是"Hive中Map端JOIN的示例分析"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
任务
内存
篇文章
结果
配置
示例
分析
内容
分布式
大小
文件
缓存
输出
普通
不怎么
原理
大部分
客户
客户端
情况
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
搭建pptp服务器
收费稽查科网络安全制度
电信与网络安全
虚拟现实技术与数据库
忘记管家婆数据库密码忘记
保险公司业务数据库
企业网络安全维护职业技能
战地一服务器管理器
方舟服务器最高倍率多少
存储服务器硬盘怎么设置
网络安全 方面的期刊
厦门象宿网络技术有限公司
西安做分布式存储服务器
用服务器cpu 玩游戏
慈溪im即时通讯软件开发
知网数据库网页资源
济南苹果软件开发哪家靠谱
贤妻良母小说软件开发
软件开发模型能不断发展
海南网络技术转让报价
广东互联网科技公司
联发科软件开发面试
江苏电商软件开发哪家专业
宝德服务器市场份额
toa服务器
网络安全会议精神
个人承包软件开发 发票
数据库转储的文件不能运行
服务器角色管理在哪里
定位导航软件开发怎么实现