Spark集群无法停止的原因分析和解决

276次阅读

共计 2690 个字符，预计需要花费 7 分钟才能阅读完成。

今天想停止 spark 集群，发现执行 stop-all.sh 的时候 spark 的相关进程都无法停止。提示：

no org.apache.spark.deploy.master.Master to stop

no org.apache.spark.deploy.worker.Worker to stop

上网查了一些资料，再翻看了一下 stop-all.sh，stop-master.sh，stop-slaves.sh，spark-daemon.sh，spark-daemons.sh 等脚本，发现很有可能是由于 $SPARK_PID_DIR 的一个环境变量导致。

1. 原因分析

我搭建的是 Hadoop2.6.0+Spark1.1.0+Yarn 的集群。Spark、Hadoop 和 Yarn 的停止，都是通过一些 xxx.pid 文件来操作的。以 spark 的 stop-master 为例，其中停止语句如下：

Spark 集群无法停止的原因分析和解决

再查看 spark-daemon.sh 中的操作：

Spark 集群无法停止的原因分析和解决

$SPARK_PID_DIR 中存放的 pid 文件中，就是要停止进程的 pid。其中 $SPARK_PID_DIR 默认是在系统的 /tmp 目录：

Spark 集群无法停止的原因分析和解决

系统每隔一段时间就会清除 /tmp 目录下的内容。到 /tmp 下查看一下，果然没有相关进程的 pid 文件了。这才导致了 stop-all.sh 无法停止集群。

2. 停止 Spark 集群

担心使用 kill 强制停止 spark 相关进程会破坏集群，因此考虑回复 /tmp 下的 pid 文件，再使用 stop-all.sh 来停止集群。

分析 spark-daemon.sh 脚本，看到 pid 文件命名规则如下：

pid=$SPARK_PID_DIR/spark-$SPARK_IDENT_STRING-$command-$instance.pid

其中

$SPARK_PID_DIR 是 /tmp

$SPARK_IDENT_STRING 是登录用户 $USER，我的集群中用户名是 cdahdp

$command 是调用 spark-daemon.sh 时的参数，有两个：

org.apache.spark.deploy.master.Master

org.apache.spark.deploy.worker.Worker

$instance 也是调用 spark-daemon.sh 时的参数，我的集群中是 1

因此 pid 文件名如下：

/tmp/spark-cdahdp-org.apache.spark.deploy.master.Master-1.pid

/tmp/spark-cdahdp-org.apache.spark.deploy.worker.Worker-1.pid

通过 jps 查看相关进程的 pid：

Spark 集群无法停止的原因分析和解决

将 pid 保存到对应的 pid 文件即可。

之后调用 spark 的 stop-all.sh，即可正常停止 spark 集群。

3. 停止 Hadoop 和 Yarn 集群

停止 hadoop 和 yarn 集群时，调用 stop-all.sh，也会出现这个现象。其中 NameNode，SecondaryNameNode，DataNode，NodeManager，ResourceManager 等就是 hadoop 和 yarn 的相关进程，stop 时由于找不到 pid 导致无法停止。分析方法同 spark，对应 pid 文件名不同而已。

Hadoop 的 pid 命名规则：

pid=$HADOOP_PID_DIR/hadoop-$HADOOP_IDENT_STRING-$command.pid

pid 文件名：

/tmp/hadoop-cdahdp-namenode.pid

/tmp/hadoop-cdahdp-secondarynamenode.pid

/tmp/hadoop-cdahdp-datanode.pid

Yarn 的 pid 命名规则：

pid=$YARN_PID_DIR/yarn-$YANR_IDENT_STRING-$command.pid

pid 文件名：

/tmp/yarn-cdahdp-resourcemanager.pid

/tmp/yarn-cdahdp-nodemanager.pid

恢复这些 pid 文件即可使用 stop-all.sh 停止 hadoop 和 yarn 进程。