hive是什么工具
小编给大家分享一下hive是什么工具,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.
hive是建立在Hadoop上的数据仓库基础架构,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reduce来处理内建的mapper和reduce无法完成的复杂的分析工作.
hive没有专门的数据格式,hive可以很好的工作在Thrift之上,控制分隔符,也允许用户指定数据格式.
hive是基于hadoop的sql解析引擎.
在hive中运行的是sql.hive中的sql非常接近mysql的sql语法.
hiveQL中的数据库、表、字段、类型与hadoop上的文件结构的对比.
数据库----------文件夹
表--------------文件夹
表中数据-------文件夹中的数据文件
字段------------数据文件中的列
hiveQL运行-----MapReduce
hiveQL中的表信息必须映射成HDFS中的文件信息,类似于Hibernate的配置文件(*.hmb.xml)。
这些映射信息不实存放在文件中,而是存放在RDBMS(derby,mysql)中.
以上是"hive是什么工具"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!