千家信息网

hive有哪些聚合函数

发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,这篇文章将为大家详细讲解有关hive有哪些聚合函数,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。★聚合函数count,sum,min,max,avgvar_pop(
千家信息网最后更新 2025年02月04日hive有哪些聚合函数

这篇文章将为大家详细讲解有关hive有哪些聚合函数,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

★聚合函数
count,sum,min,max,avg

var_pop(col) 返回指定列的方差

var_samp(col) 返回指定列的样本方差

stddev_pop(col) 返回指定列的偏差(标准差) stddev_pop = stddev

stddev_samp(col) 返回指定列的样本偏差(标准差)

covar_pop(col1, col2) 两列数值协方差
如果两个变量的变化趋势一致,那么两个变量之间的协方差就是正值;
如果两个变量的变化趋势相反,那么两个变量之间的协方差就是负值;
如果X与Y是统计独立的,那么二者之间的协方差就是0

covar_samp(col1, col2) 两列数值样本协方差

corr(col1, col2) 返回两列数值的相关系数(偏差协方)

percentile(BIGINT col, p) 返回数值区域的百分比数值点。0<=P<=1,否则返回NULL,不支持浮点型数值。
第p百分位数,大约有p%的数据项的值比第p百分位数小

percentile(BIGINT col, array(p1 [, p2]…))
返回类型也为array,其中为对应的百分位数

percentile_approx(DOUBLE col, p [, B]) 近似中位数函数(percentile的近似值)
参数B控制内存消耗的近似精度,B越大,结果的准确度越高。默认为10,000。
当col字段中的distinct值的个数小于B时,结果为准确的百分位数

percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])

histogram_numeric(col, b) 直方图,
使用b个非均匀间隔的箱子计算组内数字列的柱状图(直方图),
输出的数组大小为b,double类型的(x,y)表示直方图的中心和高度
返回值: array [{"x":100.0,"y":1.0}]
select inline(histogram_numeric(cast(a.amount as int),10)) from a

collect_set(col) 返回消除了重复元素的数组
collect_list(col) 返回允许重复元素的数组

ntile(INTEGER x) 该函数将已经排序的分区分到x个桶中,并为每行分配一个桶号

★内置 Table-Generating函数(UDTF)
explode(ARRAY) 参数列为数组类型,将数组数据中的每个元素做为一行返回

explode(MAP) 将输入map中的每个键值对转换为两列,一列为key,另一列为value,然后返回新行

explode(array a) 对于数组a中的每个元素,该函数产生包含该元素的行

json_tuple(jsonStr, k1, k2, ...) 参数为一组键k1,k2……和JSON字符串,返回值的元组。
该方法比 get_json_object 高效,因为可以在一次调用中输入多个键

parse_url_tuple(url, p1, p2, ...) 该方法同parse_url() 相似,但可以一次性提取URL的多个部分,
有效的参数名称为: HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, USERINFO, QUERY:

posexplode(ARRAY) 行为与参数为数组的explode方法相似,但包含项在原始数组中的位置,返回(pos,value)的二元组

stack(INT n, v_1, v_2, ..., v_k) 将v_1, ..., v_k 分为n行,每行包含n/k列,n必须为常数

●在SELECT中不允许再有其他表达式:不支持SELECT pageid, explode(adid_list) AS myCol...
●UDTF不能够嵌套使用:不支持SELECT explode(explode(adid_list)) AS myCol...
●不支持GROUP BY /CLUSTER BY / DISTRIBUTE BY / SORT BY

关于"hive有哪些聚合函数"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

数组 函数 数值 元素 协方差 参数 百分 两个 位数 变量 支持 之间 偏差 就是 方法 样本 直方图 篇文章 类型 相似 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 管理远程桌面服务器 高频彩自动投注软件开发 代还款软件开发 网络安全竞赛红帽杯 软件开发技术自学网站 大兴区信息网络技术服务好处 传奇服务器新武器 我的世界被破坏的服务器号 丰台区口碑好的软件开发诚信服务 用友打开输数据库密码错误 华美优科网络技术有限公司 人大监督联网软件开发 数据库建表语句以及注释 富士康软件开发用什么开发语言 网络安全目前的形势和现在 纯真软件开发有限公司怎么样 数据库导出的视图是什么样的 计算机三级网络技术拿分点 小新适合软件开发吗 强大的语音对讲软件开发 戴尔t30服务器产品报价 服务器公私钥认证机制 南京软件开发大会 网络安全意识培训的意义 湖南手机软件开发哪家好 网络安全手抄报中学生八开 系统与数据库用什么技术联系的 任务管理器文件管理服务器 广州深圳直播软件开发公司 北京回收服务器估价虚拟主机
0