请选择 进入手机版 | 继续访问电脑版

Spark简介以及与Hadoop对比分析

[复制链接]
查看43 | 回复3 | 2021-9-13 09:02:51 | 显示全部楼层 |阅读模式
目次

1. Spark 与 Hadoop 比较

1.1 Haoop 的缺点

  • 1. 表达本领 有限;
  • 2. 磁盘IO开销大;
  • 3. 耽误 高;
  • 4. 任务 之间的衔接涉及IO开销;
  • 5. 在前一个任务 实验 完之前,其他任务 就无法开始,难以胜任复杂、多阶段的计算任务 。

1.2 相较于Hadoop MR的长处

  • 1. Spark的计算模式也属于MR,但不范围 于Map和Reduce操作,它还提供了多种数据集操作范例 ,编程模式也比Hadoop MR更机动 ;
  • 2. Spark提供了内存计算,可将中央 结果 放到内存中,对于迭代运算服从 更高;
  • 3. Spark 基于DAG的任务 调度实验 机制,要优于Hadoop MR的迭代实验 机制。
Spark MapReduce
数据存储布局 使用 内存构建弹性分布式数据集RDD,对数据举行 运算和cache。 磁盘HDFS文件体系 的split
编程范式 DAG(Transformation+Action) Map+Reduce
计算中央 结果 的存储 在内存中维护,存取速率 比磁盘高几个数目 级 落到磁盘,IO及序列化、反序列化代价大
Task维护方式 线程 进程
时间 对于小数据集读取可以或许 达到亚秒级的耽误 必要 数秒时间才能启动任务

2. Spark 生态体系

2.1 大数据处理的三种范例

1. 复杂的批量数据处理

时间跨度在数非常 钟到数小时

Haoop MapReduce

2. 基于汗青 数据的交互式查询

时间跨度在数十秒到数分钟

Cloudera、Impala 这两者及时 性均优于hive。

3. 基于及时 数据流的数据处理

时间跨度在数百毫秒到数秒

Storm

2.2 BDAS架构

Spark简介以及与Hadoop对比分析

2.3 Spark 生态体系

Spark简介以及与Hadoop对比分析

Spark简介以及与Hadoop对比分析

3. 基本概念与架构计划

3.1 基本概念

Spark简介以及与Hadoop对比分析

3.2 运行架构

Spark简介以及与Hadoop对比分析

Spark采用Executor的长处 :(相比于Hadoop的MR)

  • 1. 使用 多线程来实验 详细 的任务 ,减少任务 的启动开销;
  • 2. Executor中有一个BlockManager存储模块,会将内存和磁盘共同作为存储装备 ,有效 减少IO开销。

3.3 各种概念之间的相互关系

  • 一个Application由一个Driver和多少 个Job构成
  • 一个Job由多个Stage构成
  • 一个Stage由多个没有shuffle关系的Task构成

Spark简介以及与Hadoop对比分析

当实验 一个Application时,Driver会向集群管理器申请资源,启动Executor,

并向Executor发送应用程序代码和文件,然后在Executor上实验 Task,运行竣事 后,

实验 结果 会返回给Driver,或者写到HDFS或者其他数据库中。

4. Spark运行基本流程

4.1 运行流程

Spark简介以及与Hadoop对比分析

1. 为应用构建起基本的运行环境,即由Driver创建一个SparkContext举行 资源的申请、任务 的分配和监控。

2. 资源管理器为Executor分配资源,并启动Executor进程 。

  • 3.1 SparkContext根据RDD的依靠 关系构建DAG图,DAG图提交给DAGScheduler剖析 成Stage,然后把一个个TaskSet提交给底层调度器TaskScheduler处理。
  • 3.2 Executor向SparkContext申请Task,TaskScheduler将Task发送给Executor运行并提供应用程序代码。

4. Task在Executor上运行把实验 结果 反馈给TaskScheduler,然后反馈给DAGScheduler,运行完毕后写入数据并开释 全部 资源。

4.2 运行架构特点

1. 每个Application都有本身 专属的Executor进程 ,并且该进程 在Application运行期间不停 驻留。Executor进程 以多线程的方式运行Task。

2. Spark运行过程与资源管理器无关,只要可以或许 获取Executor进程 并保持通讯 即可。

3. Task采用了数据本地性和推测实验 等优化机制。(计算向数据靠拢。)

5. Spark的部署和应用方式

5.1 Spark的三种部署方式

5.1.1 Standalone

雷同 于MR1.0,slot为资源分配单位,但性能并不好。

5.1.2 Spark on Mesos

Mesos和Spark有肯定 的亲缘关系。

5.1.3 Spark on YARN

mesos和yarn的接洽

Spark简介以及与Hadoop对比分析

5.2 从Hadoop+Storm架构转向Spark架构

Hadoop+Storm架构

这种部署方式较为繁琐。

Spark简介以及与Hadoop对比分析

用Spark架构满足 批处理和流处理需求

Spark简介以及与Hadoop对比分析

Spark用快速的小批量计算模仿 流计算,并非真实的流计算。

无法实现毫秒级的流计算,对于必要 毫秒级及时 相应 的企业应用而言,仍需采用流计算框架Storm等。

Spark架构的长处 :

  • 1. 实现一键式安装和设置 ,线程级别的任务 监控和告警;
  • 2. 降低硬件集群、软件维护、任务 监控和应用开发 的难度;
  • 3. 便于做成同一 的硬件、计算平台资源池。

5.3 Hadoop和Spark的同一 部署

Spark简介以及与Hadoop对比分析

不同计算框架同一 运行在YARN中

好处如下:

  • 1. 计算资源按需伸缩;
  • 2. 不用负载应用混搭,集群使用 率高;
  • 3. 共享底层存储,避免数据跨集群迁移

近况 :

1. Spark现在 还是无法代替 Hadoop生态体系 中的一些组件所实现的功能。

2. 现有的Hadoop组件开发 的应用,完全迁移 到Spark上必要 肯定 的成本。

到此这篇关于Spark简介以及与Hadoop对比分析的文章就先容 到这了,更多干系 Spark与Hadoop内容请搜刮 脚本之家从前 的文章或继续欣赏 下面的干系 文章渴望 大家以后多多支持脚本之家!


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

avatar 我心如烟卸 | 2021-10-1 22:04:19 | 显示全部楼层
admin楼主是一个典型的文艺青年啊!
回复

使用道具 举报

精神病院在通缉admin楼主!
回复

使用道具 举报

avatar 123457245 | 昨天 01:16 | 显示全部楼层
论坛的人气不行了!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则