MapReduce的思想
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,项目实战案例:搜狗日志查询分析数据:一、电商大数据平台整体架构1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式核心问题:数据存储、数据计算什么是数据仓库?传统的解决大数据的方
千家信息网最后更新 2024年11月11日MapReduce的思想
项目实战案例:搜狗日志查询分析
数据:
一、电商大数据平台整体架构
1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式
核心问题:数据存储、数据计算
什么是数据仓库?传统的解决大数据的方式,就是一个数据库
一般只做查询
2、大数据平台整体的架构 部署:Apache、Ambari(HDP)、CDH
二、在项目中使用使用瀑布模型(软件工程:方法论)
1、瀑布模型几个阶段?
2、每个阶段完成的任务
三、使用MapReduce进行分析处理(Java程序)
1、MapReduce的基本原理(编程模型)
() 思想来源:Google的论文:MapReduce 问题 PageRank(网页排名)
() 先拆分、再合并-----> 分布式计算
2、使用MapReduce进行日志分析
四、使用Spark进行分析和处理(Scala语言、Java语言)
1、Spark的优点和体系架构
2、使用Scala开发Spark任务进行日志分析
bin/spark-shell --master spark://bigdata11:7077
val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) rdd2.count() val rdd3=rdd2.filter(_(3).toInt==1).filter(_(4).toInt==2) rdd3.count() rdd3.take(3)
五、使用Hive(蜂巢)进行分析和处理
1、什么是Hive?特点?Hive体系结构
是基于HDFS之上的数据仓库
支持SQL语句
是翻译器:SQL ----> MapReduce(Spark任务)
2、使用Hive进行查询操作![](https://cache.yisu.com/upload/information/20200310/72/153260.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=) ① 创建Hive对应的表 create table sogoulog(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ','; ** ② 将原始数据进行清洗:因为有些不满足长度为6 val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) val rdd3 = rdd2.map(x=>x.mkString(",")) 这里需要注意转成字符串 rdd3.saveAsTextFile("hdfs://mydemo71:8020/myproject/cleandata/sogou") ** ③ 将清洗后的数据导入Hive load data inpath '/myproject/cleandata/sogou/part-00000' into table sogoulog; load data inpath '/myproject/cleandata/sogou/part-00001' into table sogoulog; ④ 使用SQL查询满足条件的数据(只显示前10条)** select * from sogoulog where no1=1 and clickid=2 limit 10;**
查询10号部门 工资大于2000的员工 很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。
如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121
数据
分析
查询
资料
开发
仓库
任务
日志
架构
模型
处理
体系
全套
学习资料
平台
整体
方式
瀑布
视频
语言
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
sql安装后没有数据库
杭州网络安全案件
戴尔服务器一直重启
上海一妇婴网络安全事件
服务器工作站市场
北大基因分析数据库课题组
旋动软件开发
关于网络安全的信息
计算机网络安全的小结
服务器连接数据库修改数据库密码
软件开发pd是什么
美军网络安全体系
江苏镇江服务器怎么买
5g网络技术用途
方舟手游服务器怎么输入代码指令
老干部网络安全宣传周
服务器要做引导项吗
供暖行业自动化控制软件开发
软件开发工程师好吗
软件开发是否需要资质
网络安全底层设计龙头股
服务器硬件与虚拟机
数据库代码设计
网络安全基础推荐书目
浙江义乌爱旭数据库管理员招聘
起航网络安全专业
超讯党内统计系统数据库连接不上
福建软件开发有哪些公司
能做二次软件开发的板卡
相通网络技术有限公司 工商