解决百度BMR的Spark集群开启slaves结点的问题

284次阅读

共计 2630 个字符，预计需要花费 7 分钟才能阅读完成。

前言

最近一直忙于和小伙伴倒腾着关于人工智能的比赛，一直都没有时间停下来更新更新我的博客。不过在这一个过程中，遇到了一些问题，我还是记录了下来，等到现在比较空闲了，于是一一整理出来写成博客。希望对于大家有帮助，如果在此有不对的地方，请大家指正，谢谢！

比赛遇到 spark 开启的问题

疑惑之处

在使用百度 BMR 的时候，出现了这样子一个比较困惑的地方。但百度那边帮我们初始化了集群之后，我们默认以为开启了 spark 集群了，于是就想也不想就开始跑我们的代码。可认真你就错了，发现它只是开启了 local（即 Master 结点），其他的 slaves 结点并没有开启。于是我们不得不每一次都进入到 Master 的 /opt/bmr/spark/conf/ 中去修改 slaves 文件，去把它里面最后的那个 localhost 删除，添加上 slaves 结点的 hostname 或者是 IP。

原来的 localhost：

解决百度 BMR 的 Spark 集群开启 slaves 结点的问题

改变成如下：

解决百度 BMR 的 Spark 集群开启 slaves 结点的问题

麻烦之处

最是麻烦的地方是，这个 slaves 文件，每次使用 spark 集群的时候都要去修改，非常不方便。在此吐槽一下百度 BMR 的不智能的地方。于是想，有木有好的办法可以让我们省去这样的麻烦呢？

使用脚本开启百度 BMR 的 spark 集群

观察 Hadoop 文件夹下的情况

在开启集群的时候，百度提供我们选择 Hadoop 的镜像版本，而这个 Hadoop 是必选的。前几篇博文里见到配置 Hadoop 的时候其实需要配置其他 slaves 的结点的。知道这个，就有点惊喜了，因为 Hadoop 下的 slaves 文件是长这样子的

解决百度 BMR 的 Spark 集群开启 slaves 结点的问题

观察 spark 文件夹下的情况

spark 下的 conf 文件夹，一开始并没有 slaves，我们需要从它的 slaves.template 拷贝过来

解决百度 BMR 的 Spark 集群开启 slaves 结点的问题

cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves

使用脚本，拷贝 slaves 的 hostname 到 spark 下的 slaves

我们需要做的是，获取 Hadoop 下 slaves 的 slaves 结点的 hostname，进而拷贝到 spark 下的 slaves 文件的最后两行，拷贝之前，需要把 spark 的 slaves 的最后一行 localhost 给删除掉。那么有哪个 shell 指令可以帮我解决这个难题了？经过询问后台的大佬，以及晚上查阅，发现了 sed 这个指令可以帮助我们解决这个问题。

sed 的介绍

 [root@www ~]# sed [-nefr] [动作]
选项与参数：-n：使用安静 (silent) 模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过 sed 特殊处理的那一行 (或者动作) 才会被列出来。-e：直接在命令列模式上进行 sed 的动作编辑；-f：直接将 sed 的动作写在一个文件内，-f filename 则可以运行 filename 内的 sed 动作；-r：sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
-i：直接修改读取的文件内容，而不是输出到终端。动作说明：[n1[,n2]]function
n1, n2：不见得会存在，一般代表『选择进行动作的行数』，举例来说，如果我的动作是需要在 10 到 20 行之间进行的，则『10,20[动作行为]』function：a：新增，a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
c：取代，c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！d：删除，因为是删除啊，所以 d 后面通常不接任何咚咚；i：插入，i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；p：列印，亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行～
s：取代，可以直接进行取代的工作哩！通常这个 s 的动作可以搭配正规表示法！例如 1,20s/old/new/g 就是啦！

使用 sed 写脚本

具体用到的有：

 -i # 因为信息我觉得不用输出到终端上
d  # 需要删除 localhost

这是删除 localhost 的：

sed -i '/localhost/d' /opt/bmr/spark/conf/slaves

追加 slaves 的 hostname 到 spark 的 slaves 最后

 for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
do
echo $slaves_home >> /opt/bmr/spark/conf/slaves
done

最后 spark 下的 slaves 文件是这样子的

解决百度 BMR 的 Spark 集群开启 slaves 结点的问题

完整的代码如下

 echo "Starting dfs!"
/opt/bmr/hadoop/sbin/start-dfs.sh
echo "*******************************************************************"
 
echo "Starting copy!"
cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves
echo "Copy finished!"
echo "Writing!"
sed -i '/localhost/d' /opt/bmr/spark/conf/slaves
for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
do
echo $slaves_home >> /opt/bmr/spark/conf/slaves
done
echo "*******************************************************************"
 
echo "Starting spark!"
/opt/bmr/spark/sbin/start-all.sh
echo "*******************************************************************"
 
echo "Watching the threads"
jps

查看到 Master 进程已经开启了，就大功告成了！

结言

只要把上面的代码保存到一个.shell 文件下。给它加上可运行的权限，然后就大功告成了。理论上，百度 BMR 的 spark 的路径都是一致的，因而都能通用，希望能减轻大家每次配置的烦恼。

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-08/146210.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-21

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

开源领域的个人崇拜正在消失

Apache站点默认首页设置

在Ubuntu 14.04 上使用Bacula和Webmin设置备份服务器

Elasticsearch5.3安装插件head

Dell CentOS 环境下安装远程管理命令racadm

CentOS上安装Nginx服务器实现虚拟主机和域名重定向

个人私有云NextCloud安装教程

ElasticSearch 基础和集群搭建

Hadoop 2.7.2集群搭建详解

解决百度BMR的Spark集群开启slaves结点的问题

前言

比赛遇到 spark 开启的问题

疑惑之处

麻烦之处

使用脚本开启百度 BMR 的 spark 集群

观察 Hadoop 文件夹下的情况

观察 spark 文件夹下的情况

使用脚本，拷贝 slaves 的 hostname 到 spark 下的 slaves

sed 的介绍

使用 sed 写脚本

完整的代码如下

结言

申请腾讯混元的API Key并且使用LobeChat调用混元AI

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

Docker部署搭建一个开源强大的图书管理系统

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

Ollama模型导入指南，从HuggingFace下载模型轻松上手

Docker部署搭建一个开源强大的图书管理系统

如何选择最合适的DDoS高防服务

基于Nginx的WordPress安全设置

如何解决ping第一包时间过长的情况

	[root@www ~]# sed [-nefr] [动作]
	选项与参数：-n：使用安静 (silent) 模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过 sed 特殊处理的那一行 (或者动作) 才会被列出来。-e：直接在命令列模式上进行 sed 的动作编辑；-f：直接将 sed 的动作写在一个文件内，-f filename 则可以运行 filename 内的 sed 动作；-r：sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
	-i：直接修改读取的文件内容，而不是输出到终端。动作说明：[n1[,n2]]function
	n1, n2：不见得会存在，一般代表『选择进行动作的行数』，举例来说，如果我的动作是需要在 10 到 20 行之间进行的，则『10,20[动作行为]』function：a：新增，a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
	c：取代，c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！d：删除，因为是删除啊，所以 d 后面通常不接任何咚咚；i：插入，i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；p：列印，亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行～
	s：取代，可以直接进行取代的工作哩！通常这个 s 的动作可以搭配正规表示法！例如 1,20s/old/new/g 就是啦！

	-i # 因为信息我觉得不用输出到终端上
	d # 需要删除 localhost

	for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
	do
	echo $slaves_home >> /opt/bmr/spark/conf/slaves
	done

	echo "Starting dfs!"
	/opt/bmr/hadoop/sbin/start-dfs.sh
	echo "*******************************************************************"

	echo "Starting copy!"
	cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves
	echo "Copy finished!"
	echo "Writing!"
	sed -i '/localhost/d' /opt/bmr/spark/conf/slaves
	for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
	do
	echo $slaves_home >> /opt/bmr/spark/conf/slaves
	done
	echo "*******************************************************************"

	echo "Starting spark!"
	/opt/bmr/spark/sbin/start-all.sh
	echo "*******************************************************************"

	echo "Watching the threads"
	jps