CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

274次阅读

没有评论

共计 3077 个字符，预计需要花费 8 分钟才能阅读完成。

摘要

在上一篇文章《CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建》http://www.linuxidc.com/Linux/2017-06/144932.htm

已经详细写了 Hadoop 2.6.4 配置过程，下面详细介绍 Spark 1.6.1 的安装过程。

Scala 安装

下载，解压

下载 Scala-2.11.8.tgz，解压到 /root/workspace/software/scala-2.10.4t 目录下

修改环境变量文件 /etc/profile

添加以下内容

 export SCALA_HOME=/root/workspace/software/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

source 使之生效

source /etc/profile

验证 Scala 安装

CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

slaver1-slaver4 部署 scala

slaver1 – slaver4 参照 master 机器安装步骤进行安装。

Spark 安装

下载，解压

下载 spark-1.6.1-bin-hadoop2.6.tgz，解压到 /root/workspace/software/spark1.6.1_hadoop2.6 目录下。

修改环境变量文件 /etc/profile, 添加以下内容。

 export SPARK_HOME=/root/workspace/software/spark1.6.1_hadoop2.6/
export PATH=$PATH:XXX 其他软件的环境变量 :$SPARK_HOME/bin# 在最后添加:$SPARK_HOME/bin

source 使之生效

source /etc/profile

Spark 配置

spark-env.sh

进入 Spark 安装目录下的 /root/workspace/software/spark1.6.1_hadoop2.6/conf 目录，拷贝 spark-env.sh.template 到 spark-env.sh。

cp spark-env.sh.template spark-env.sh

编辑 spark-env.sh，在其中添加以下配置信息：

 export SCALA_HOME=/root/workspace/software/scala-2.10.4
export Java_HOME=/usr/java/jdk1.7.0_80
export HADOOP_HOME=/root/workspace/software/hadoop-2.6.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=192.168.122.1
export SPARK_LOCAL_DIRS=/root/workspace/software/spark1.6.1_hadoop2.6
export SPARK_WORKER_MEMORY=20g

JAVA_HOME 指定 Java 安装目录；
SCALA_HOME 指定 Scala 安装目录；
SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址；
SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小；
HADOOP_CONF_DIR 指定 hadoop 集群配置文件目录。
SPARK_WORKER_MEMORY 我这边的机器内存 32g，我设置内存为 20g, 更加自己的情况修改。

slaves

将 slaves.template 拷贝到 slaves，编辑其内容为：

 master
slaver1
slaver2
slaver3
slaver4

即 master 既是 Master 节点又是 Worker 节点

slaver1- slaver4 部署

slaver1 -slaver4 参照 master 机器安装步骤进行安装。

启动 Spark 集群

启动 Hadoop 集群

参考 CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 http://www.linuxidc.com/Linux/2017-06/144932.htm

启动 Spark 集群

启动 Master 节点

运行 /root/workspace/software/spark1.6.1_hadoop2.6/sbin 下面，start-master.sh
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建
可以看到 master 上多了一个新进程 Master。

启动所有 Worker 节点

运行运行 /root/workspace/software/spark1.6.1_hadoop2.6/sbin 下面，start-slaves.sh
在 slaver1-slaver4 查看进程
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

可以发现都启动了一个 Worker 进程

浏览器查看 Spark 集群信息

访问：http://masterIP:8080, 如下图：
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

使用 spark-shell

运行 spark-shell，可以进入 Spark 的 shell 控制台，如下：
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

浏览器访问 SparkUI

CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

可以从 SparkUI 上查看一些如环境变量、Job、Executor 等信息。
至此，整个 Spark 分布式集群的搭建就到这里结束。

停止 Spark 集群

停止 Master 节点

运行 /root/workspace/software/spark1.6.1_hadoop2.6/sbin，下面的 stop-master.sh 来停止 Master 节点。
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

jps 查看 java 进程
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

可以发现 Master 进程已经停止。

停止 Master 节点

运行 /root/workspace/software/spark1.6.1_hadoop2.6/sbin，下面的 stop-slaves.sh（注意是 stop-slavers 有 s）可以停止所有的 Worker 节点
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

使用 jps 命令查看 master 上的进程信息：
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

worker 关闭了

使用 jps 命令查看 slaver1 上的进程信息：
CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建
可以看到，Worker 进程均已停止，最后再停止 Hadoop 集群.

搞定啦

后面边学习边理解里面设置的东西。

Hadoop2.7.3+Spark2.1.0 完全分布式集群搭建过程 http://www.linuxidc.com/Linux/2017-06/144926.htm

Hadoop2.3-HA 高可用集群环境搭建 http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop 项目之基于 CentOS7 的 Cloudera 5.10.1（CDH）的安装部署 http://www.linuxidc.com/Linux/2017-04/143095.htm

Hadoop2.7.2 集群搭建详解（高可用）http://www.linuxidc.com/Linux/2017-03/142052.htm

使用 Ambari 来部署 Hadoop 集群（搭建内网 HDP 源）http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04 下 Hadoop 集群安装 http://www.linuxidc.com/Linux/2017-02/140783.htm

CentOS 6.9 下 Hadoop 伪分布式环境搭建 http://www.linuxidc.com/Linux/2017-06/144884.htm

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 ：http://www.linuxidc.com/Linux/2017-06/144933.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-21

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

如何在 FreeBSD 10.2 上安装使用 Nginx 的 Ghost

SUSE Storage6 环境搭建详细步骤 – Win10 + VMware WorkStation

MooseFS分布式文件系统部署安装与简单使用

自动化运维工具Puppet服务安装和部署详解

如何在Linux平台上安装Ghost博客平台

Nginx的介绍和使用

Windows 平台下安装Cygwin后，sshd服务无法启动

Debian下Bind9.9.2+MySQL 搞定DNS解析

CentOS7安装配置ZooKeeper集群

CentOS 7 下 Spark1.6.1+Hadoop2.6 分布式集群环境搭建

摘要

Scala 安装

下载，解压

修改环境变量文件 /etc/profile

验证 Scala 安装

slaver1-slaver4 部署 scala

Spark 安装

下载，解压

修改环境变量文件 /etc/profile, 添加以下内容。

Spark 配置

spark-env.sh

slaves

slaver1- slaver4 部署

启动 Spark 集群

启动 Hadoop 集群

启动 Spark 集群

启动 Master 节点

启动所有 Worker 节点

浏览器查看 Spark 集群信息

使用 spark-shell

浏览器访问 SparkUI

停止 Spark 集群

停止 Master 节点

停止 Master 节点

搞定啦

申请腾讯混元的API Key并且使用LobeChat调用混元AI

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

如何安装官方ChatGPT桌面软件，支持Windows和MacOS系统

系统管理员的 SELinux 指南

【99元】腾讯云服务器99元一年、性能测评、购买链接入口及问题解答

HTTP协议详解

使用Ollama+Open-Webui把DeepSeek等大模型分享给团队的小伙伴使用

白嫖腾讯云Cloud Studio创建程序员个人简历网站，部署DeepSeek大模型

	export SCALA_HOME=/root/workspace/software/scala-2.10.4
	export PATH=$PATH:$SCALA_HOME/bin

	export SPARK_HOME=/root/workspace/software/spark1.6.1_hadoop2.6/
	export PATH=$PATH:XXX 其他软件的环境变量 :$SPARK_HOME/bin# 在最后添加:$SPARK_HOME/bin

	export SCALA_HOME=/root/workspace/software/scala-2.10.4
	export Java_HOME=/usr/java/jdk1.7.0_80
	export HADOOP_HOME=/root/workspace/software/hadoop-2.6.4
	export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
	export SPARK_MASTER_IP=192.168.122.1
	export SPARK_LOCAL_DIRS=/root/workspace/software/spark1.6.1_hadoop2.6
	export SPARK_WORKER_MEMORY=20g