千家信息网

Spark 简介

发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,==> 什么是 Spark---> Spark 是一个针对大规模数据处理的快速通用引擎---> Spark 是 MapReduce 的替代方案,而且兼容 HDFS, Hive, 可容入Hadoop 的
千家信息网最后更新 2025年01月31日Spark 简介

==> 什么是 Spark

---> Spark 是一个针对大规模数据处理的快速通用引擎

---> Spark 是 MapReduce 的替代方案,而且兼容 HDFS, Hive, 可容入Hadoop 的生态系统,弥补 MapReduce 的不足


==> Spark 核心 RDD (Resilient Distributed Datasets 弹性分布式数据集)

---> RDD 可简单理解为: 一个提供了很多操作接口的数据集合,分布式存储于集群环境中的存储设备中(内存或硬盘),其中包括容错,并行处理等功能

==> Spark 特点

---> 快

---- 优点:与Mapreduce 相比,Spark 基于内存运算,运算速度要快100倍,基于硬盘计算,运算速度要快 10 倍

---- 缺点:没有对内存进行管理,把所有的内存管理都交给应用程序,以弥补MapReduce的不足,

容易出现 OOM(out of memory), 可使用 Java Heap Dump 工具分析 Java 程序的内存溢出

---> 易用

---- Spark 支持 Java ,Python, Scala 的 API

---- 支持80多种算法

---- 支持交互式,可以在shell 中使用Spark 验证解决问题的方法

---> 通用(生态圈)

---- 批处理

---- 交互式查询 (Spark SQL)

---- 实时流处理 (Spark Streaming)

---- 机器学习 ( Spark MLlib )

---- 图计算 ( GraphX )

---- 与 Hadoop 很好的融合, 可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的框架集成 Hadoop(配置Hive on Spark 还不成熟)


---> 兼容性 可以非常方便的与其它开源产品进行融合

---- 可以使用 Hadoop 的 YARNApache Mesos 作为它的资源管理调度器

---- 可以处理所有 Hadoop 支持的数据:HDFS, HBase, Cassandra

---- 不需要做任何的数据迁移就可以使用 Spark 的强大处理能力

---- 可以不依赖第三方的资源管理和调度器,实现 Standalone 作为它的内置的资源管理和调试框架,降低部署的复杂性

---- 提供了在 EC2 上部署 Standalone 的Spark 集群工具


==> Spark 生太圈

---> Spark Core

---> Spark SQL

---> Spark Streaming

---> Spark MLLib: 机器学习

---> Spark GraphX: 图计算



数据 处理 管理 内存 支持 资源 资源管理 运算 交互式 分布式 工具 机器 框架 生态 硬盘 程序 速度 集群 存储 学习 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 e盾服务器 中国软件开发人员多少 吉林特种网络技术分类产品介绍 c语言数据库有哪些 2021年国家网络安全在哪举行 本科毕业论文进入数据库吗 数据库默认值绑定是什么 服务器怎么挂拼多多账号 渤海银行软件开发中心 待遇 房山区多功能网络技术哪里好 我国自主研发的无线网络技术 针对网络安全的解决措施 做好网络安全保障工作信息 东城区技术软件开发平台 服务器观察期全集 上海招聘的软件开发工程师 软件开发在技术上有什么风险 数据库查询多少年后的 计算机有哪些专业软件开发 筑牢网络安全防线考试 软件开发招标2018 爱奇艺软件开发面试题目 我的世界服务器之战动画 延庆区网络软件开发包括什么 郭继承讲网络安全 山东正规软件开发品质保障 网络安全资格证书怎么考 java数据库安装 哲学社会科学期刊数据库 重庆软件开发公司怎么选择
0