Spark的速度快是以丧失计算结果正确性为代价的

233次阅读

共计 2536 个字符，预计需要花费 7 分钟才能阅读完成。

是的，Spark 很快。但是它不保证它算出的值是对的，哪怕你要做的只是简单的整数累加。

Spark 最著名的一篇论文是：《Spark: Cluster Computing with Working Sets》。当你读它的时候你需要明白：文中代码不保证计算结果是正确的。具体来说，它的 Logistic Regression 的代码在 map 阶段用到了 accumulator。下面解释为什么这么做是错误的。

假设有这样一个简单的任务：

input file 的每一行是 100 个整数，要求竖着加下来

例如：

输入

1 2 3 4 5 … 100
1 2 3 4 5 … 200
1 3 3 4 5 … 100

输出

3 7 9 12 15 … 400

很简单，对吧？是个猪都会算。在 Hadoop 上这个问题可以通过 Map reduce 来解决。首先把输入文件分成 N 个大小相等的块。然后每个块输出一行 100 个整数，如 2 4 6 8 10 … 200
然后 reducer 接收每个 mapper 的输出结果，累加起来得到最终结果。

缺点是：从 mapper 到 reducer 是需要 DISK-IO 及网络传输的。那么需要传输 N *100 个整数。当输入集的维数很大（每行有上百万个字节）的时候，很浪费。

spark 很巧妙的引入了 accumulator 的概念。同一台机器上所有的 task 的输出，会先在这个机器上进行本地汇总，然后再发给 reducer。这样就不再是 task 数量 * 维数，而是机器数量 * 维数。会节省不少。具体来说，在做机器学习的时候，大家很习惯的用 accumulator 来做这样的计算。

accumulator 是被很 careful 设计的。比如，只有 master 节点能读取 accumulator 的值，worker 节点不能。在“Performance and Scalability of Broadcast in Spark
”一文中，作者写到：“Accumulators can be defined for any type that has an“add”operation and a“zero”value. Due to their“add-only”semantics, they are easy to make fault-tolerant.”。但真的是这样吗？并不是。

accumulator 如果不是运行在运算的最后一环，那么正确性无法保证。因为 accumulator 不是 map/reduce 函数的输入或输出，accumulator 是表达式求值中的 side-effect。举个例子：

 val acc = sc.accumulator(0)  
data.map(x => acc += 1; f(x))  
data.count()  
// acc should equal data.count() here
data.foreach{...}  
// Now, acc = 2 * data.count() because the map() was recomputed.

这个问题被 spark 的创始人 Matei 标为 Won’t Fix。

那么是不是写代码小心点不要触发重复计算就行了呢？也不是。task 是有可能 fail-retry 的，再或者因为某一个 task 执行的慢，所以同时有它的多个副本在跑。这些都可能会导致 accumulator 结果不正确。Accumulators 只能用在 RDD 的 actions 中，不能用在 Transformations。举例来说：可以在 reduce 函数中用，但是不能在 map 函数中用。

如果不用 accumlators，但又想节省网络传输，那么 Matei 说：“I would suggest creating fewer tasks. If your input file has a lot of blocks and hence a lot of parallel tasks, you can use CoalescedRDD to create an RDD with fewer blocks from it.”

意思就是说，那你就把 task 划分大一点，把 task 的数量减少。比如每台机器只有 1 个 task。Downside 其实也很明显，任务的执行容易不 balance。

参考：https://issues.apache.org/jira/browse/SPARK-732
https://issues.apache.org/jira/browse/SPARK-3628
https://issues.apache.org/jira/browse/SPARK-5490

https://github.com/apache/spark/pull/228

————————————– 分割线 ————————————–

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

CentOS 6.2(64 位) 下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark 简介及其在 Ubuntu 下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm

安装 Spark 集群 (在 CentOS 上) http://www.linuxidc.com/Linux/2013-08/88599.htm

Hadoop vs Spark 性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm

Spark 安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm

Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm

————————————– 分割线 ————————————–

Spark 的详细介绍 ：请点这里
Spark 的下载地址 ：请点这里

本文永久更新链接地址 ：http://www.linuxidc.com/Linux/2015-06/118455.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-20

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Ubuntu Server 14.04 下 service php-fpm restart 提示 restart: Unknown instance

Ubuntu 14.04下搭建SVN服务器（SVN Server）

使用Hexo在Github上搭建自己的博客

强大的RabbitMQ优先级队列让你轻松面对现实业务场景

CentOS上配置主DNS服务器的简易指南

XenServer重新生成自签证书

利用 Puppet 实现自动化管理配置 Linux 计算机集群

Linux下Resin安装和配置

HDFS数据完整性

Spark的速度快是以丧失计算结果正确性为代价的

申请腾讯混元的API Key并且使用LobeChat调用混元AI

Docker部署搭建一个开源强大的图书管理系统

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

DeepSeek+即梦AI：零基础也能轻松制作哪吒动画手办图，超详细教程！

Centos之赛门铁克存储搭建

腾讯云服务器99元一年还是买3年划算？三年划算

腾讯云8核16G5M服务器多少钱？CVM和轻量配置价格表，真优惠！

Mariadb学习总结（七）：单表查询

	val acc = sc.accumulator(0)
	data.map(x => acc += 1; f(x))
	data.count()
	// acc should equal data.count() here
	data.foreach{...}
	// Now, acc = 2 * data.count() because the map() was recomputed.