MapReduce的思想
发表于:2024-09-21 作者:千家信息网编辑
千家信息网最后更新 2024年09月21日,项目实战案例:搜狗日志查询分析数据:一、电商大数据平台整体架构1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式核心问题:数据存储、数据计算什么是数据仓库?传统的解决大数据的方
千家信息网最后更新 2024年09月21日MapReduce的思想
项目实战案例:搜狗日志查询分析
数据:
一、电商大数据平台整体架构
1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式
核心问题:数据存储、数据计算
什么是数据仓库?传统的解决大数据的方式,就是一个数据库
一般只做查询
2、大数据平台整体的架构 部署:Apache、Ambari(HDP)、CDH
二、在项目中使用使用瀑布模型(软件工程:方法论)
1、瀑布模型几个阶段?
2、每个阶段完成的任务
三、使用MapReduce进行分析处理(Java程序)
1、MapReduce的基本原理(编程模型)
() 思想来源:Google的论文:MapReduce 问题 PageRank(网页排名)
() 先拆分、再合并-----> 分布式计算
2、使用MapReduce进行日志分析
四、使用Spark进行分析和处理(Scala语言、Java语言)
1、Spark的优点和体系架构
2、使用Scala开发Spark任务进行日志分析
bin/spark-shell --master spark://bigdata11:7077
val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) rdd2.count() val rdd3=rdd2.filter(_(3).toInt==1).filter(_(4).toInt==2) rdd3.count() rdd3.take(3)
五、使用Hive(蜂巢)进行分析和处理
1、什么是Hive?特点?Hive体系结构
是基于HDFS之上的数据仓库
支持SQL语句
是翻译器:SQL ----> MapReduce(Spark任务)
2、使用Hive进行查询操作![](https://cache.yisu.com/upload/information/20200310/72/153260.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=) ① 创建Hive对应的表 create table sogoulog(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ','; ** ② 将原始数据进行清洗:因为有些不满足长度为6 val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) val rdd3 = rdd2.map(x=>x.mkString(",")) 这里需要注意转成字符串 rdd3.saveAsTextFile("hdfs://mydemo71:8020/myproject/cleandata/sogou") ** ③ 将清洗后的数据导入Hive load data inpath '/myproject/cleandata/sogou/part-00000' into table sogoulog; load data inpath '/myproject/cleandata/sogou/part-00001' into table sogoulog; ④ 使用SQL查询满足条件的数据(只显示前10条)** select * from sogoulog where no1=1 and clickid=2 limit 10;**
查询10号部门 工资大于2000的员工 很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。
如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121
数据
分析
查询
资料
开发
仓库
任务
日志
架构
模型
处理
体系
全套
学习资料
平台
整体
方式
瀑布
视频
语言
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库查询不小于
国家网络安全宣传周科普短片
安可环境下软件开发
普陀区咨询软件开发哪家好
软件开发有必要考公务员吗
以网络安全为主题的班会内容
数据库选型对比
上海闵行区网络技术开发
JSP数据库不安全
石家庄业成软件开发有限公司
饥荒联机如何搜索服务器
杜绝网络安全的发生
新华互联网科技官网
数据库和程序哪个难
网络安全具有以下哪四方面特征
海康注册管理服务器端口
云南连锁软件开发
软件开发计划 l4
软件开发技术线路如何写
2020网络安全宣传展板
特高压直流输电网络安全
湖北标准软件开发成本价
开设工业网络技术
服务器轮询压力
校园网络安全事故统计表
数据库int类型可以写文字吗
德阳胶衣网络技术
滨湖区项目软件开发活动简介
数据库 脏读举例
软件开发行业的客户