阿里云-云小站（无限量代金券发放中）

【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Spark中的内存计算是什么?

79次阅读

共计 680 个字符，预计需要花费 2 分钟才能阅读完成。

导读	由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。

Spark 中的内存计算是什么?

在 Spark 中，内存计算有两层含义：

第一层含义就是众所周知的分布式数据缓存;

第二层含义是 Stage 内的流水线式计算模式, 通过计算的融合来大幅提升数据在内存中的转换效率，进而从整体上提升应用的执行性能;

那 Stage 内的流水线式计算模式到底长啥样呢? 在 Spark 中，流水线计算模式指的是：在同一 Stage 内部，所有算子融合为一个函数，Stage 的输出结果, 由这个函数一次性作用在输入数据集而产生。

我们用一张图来直观地解释这一计算模式。

Spark 中的内存计算是什么?

在上面的计算流程中，如果你把流水线看作是内存，每一步操作过后都会生成临时数据，如图中的 clean 和 slice，这些临时数据都会缓存在内存里。

但在下面的内存计算中，所有操作步骤如 clean、slice、bake，都会被捏合在一起构成一个函数。这个函数一次性地作用在“带泥土豆”上，直接生成“即食薯片”，在内存中不产生任何中间数据形态。

由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。但是，当我们对内存计算有了多方位理解以后，就不会一股脑地只想到用 cache 去提升应用的执行性能，而是会更主动地想办法尽量避免 Shuffle，让应用代码中尽可能多的部分融合为一个函数，从而提升计算效率。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年，有高配
腾讯云新客低至 82 元 / 年，老客户 99 元 / 年
代金券：在阿里云专用满减优惠券

正文完

星哥玩云-微信公众号

post-qrcode

Linux linux命令 linux命令大全 Linux操作系统 linux教程 linux系统

发表至： linux教程

2024-07-25

0

版权声明：本站原创文章，由星锅于2024-07-25发表，共计680字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

【腾讯云】推广者专属福利，新客户无门槛领取总价值高达2860元代金券，每种代金券限量500张，先到先得。

浅谈Linux下file的应用实例

教程 | Linux常用命令大全

Linux教程：Linux运行级别0-6的各自含义？

Livepatch —— 免重启给 Ubuntu Linux 内核打关键性安全补丁

EAFP 和 LBYL 代码风格到底是什么?

如何在 Cockpit 中管理虚拟机

记录一次nginx升级,支持ipv4和ipv6访问https

了解k8s 组件 Coredns 的ndots配置

老司机带你分分钟入门所有编程语言

详解Redis分布式锁

阿里云-最新活动爆款每日限量供应

评论（没有评论）

文章搜索

热门文章

随机文章

【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中