千家信息网

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,第一天2.Hadoop框架介绍与搜索技术体系介绍1.大数据典型特性与分布式开发难点2.Hadoop框架介绍与搜索技术体系介绍3.Hadoop版本与特性介绍4.Hadoop核心模块之HDFS分布式文件系
千家信息网最后更新 2025年02月02日Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

第一天

2.Hadoop框架介绍与搜索技术体系介绍

1.大数据典型特性与分布式开发难点
2.Hadoop框架介绍与搜索技术体系介绍
3.Hadoop版本与特性介绍
4.Hadoop核心模块之HDFS分布式文件系统架构介绍
5.Hadoop核心模块之Yarn操作系统架构介绍
6.Linux安全禁用设置与JDK安装讲解
7.Hadoop伪分布式环境部署HDFS部分
8.Hadoop伪分布式环境部署Yarn和MR部分
9.Hadoop环境使用常见的错误集合
10.Hadoop环境常规设置与辅助功能讲解(-)
11.Hadoop环境常规设置与辅助功能讲解(二)
12.Windows环境下部署Eclipse插件注意事项

2.Hadoop框架介绍与搜索技术体系介绍

1.hadoop介绍

-》官网:http://hadoop.apache.org

-》hadoop商业三大发行版

-》Apache -》apache

-》cloudera -》CDH

-》hostonwork -》HDP

-》分布式

-》爬虫

-》存储(加硬盘,但是单台机器是有限的)&处理分析

-》快速查询

-》分开计算,结果合并

-》google-》Mapreduce论文

-》map

-》reduce

-》HDFS 文件系统和数据库是不一样的

-》HBase

-》搜索引擎的技术体系

-》数据获取

-》(外网,互联网抓取数据)

-》数据库

-》数据存储-》HDFS&Hbase

-》yarn操作系统

-》数据计算

-》sql实时查询(消息队列,监控系统)

-》辅助型框架,比如zookeeper

-》生成索引,搜索的索引(商品推荐和自己平时搜索的信息有关)

-》返回个前端用户

-》离线系统-》hadoop生态圈

-》数据获取

-》(外网,互联网抓取数据)

-》云存储

-》全量或者增量导入(同步到hbase当中,sql语句当中)

-》复杂离线处理的过程(job运行,业务的逻辑,表的join,字段的合并)

-》mapreduce(实现全量或者增量数据的更新)

-》其他的框架实现实时数据的更新

这样我整个的数据变化就可以实现秒级的速度 更新到搜索引擎




0