在Ubuntu下搭建Spark群集

174次阅读

共计 2347 个字符，预计需要花费 6 分钟才能阅读完成。

在前一篇文章中，我们已经在 Ubuntu 搭建好了 Hadoop 的群集，接下来，我们就是需要基于这个 Hadoop 群集，搭建 Spark 的群集。由于前面已经做了大量的工作，所以接下来搭建 Spark 会简单很多。

首先打开三个虚拟机，现在我们需要安装 Scala，因为 Spark 是基于 Scala 开发的，所以需要安装 Scala。在 Ubuntu 下安装 Scala 很简单，我们只需要运行

sudo apt-get install scala

就可以安装 Scala 了。

安装完成后运行 scala -version 可以看到安装的 Scala 的版本，我现在 2.11 版，安装目录是在 /usr/share/scala-2.11。

接下来下载 Spark。到官方网站，找到最新版的 Spark 的下载地址，选择 Hadoop 版本，

http://spark.apache.org/downloads.html

wget http://spark 下载地址

当下载完毕后解压文件：

tar xvf spark-2.0.2-bin-hadoop2.7.tgz

接下来我们需要将解压的文件夹移动到指定目录，因为之前我们 Hadoop 安装到 /usr/local/hadoop，所以我们也可以把 Spark 放在 /usr/local/spark 下：

sudo mv spark-2.0.2-bin-hadoop2.7 /usr/local/spark

进入 spark 文件夹下的 conf 文件夹，里面有个 spark-env.sh.template 文件，是 spark 环境变量设置的目标，我们可以复制一个出来：

cp spark-env.sh.template spark-env.sh

然后编辑该文件

vi spark-env.sh

在文件的末尾我们添加上以下内容：

export SCALA_HOME=/usr/share/scala-2.11 
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 
SPARK_MASTER_IP=master 
SPARK_LOCAL_DIRS=/usr/local/spark 
SPARK_DRIVER_MEMORY=1G 
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native/:$LD_LIBRARY_PATH

这里的内容是根据我虚拟机的环境来的，如果安装的版本和路径不一样，可以根据实际情况更改。

接下来设置 slaves 文件。

cp slaves.template slaves
vi slaves

将内容改为

slave01

slave02

Spark 在一台机器上就算配置完毕，接下来在另外两台机器上也做一模一样的配置即可。

启动 Spark

在 master 上，我们先启动 Hadoop，然后运行

/usr/local/spark/sbin/start-all.sh

便可启动 Spark。

运行 jps 看看 Java 进程：

2929 Master
2982 Jps
2294 SecondaryNameNode
2071 DataNode
1929 NameNode
2459 ResourceManager
2603 NodeManager

发现比 Hadoop 启动的时候多了 Master 进程。

切换到 slave01 节点上，运行 JPS，看看进程：

1889 Worker
1705 NodeManager
1997 Jps
1551 DataNode

这里比 Hadoop 的时候多了一个 Worker 进程。说明我们的 Spark 群集已经启动成功。

下面访问 Spark 的网站：

http://192.168.100.40:8080/

可以看到 2 个 worker 都启动。

在 Ubuntu 下搭建 Spark 群集

最后，我们运行一下 Spark 的示例程序：

/usr/local/spark/bin/run-example SparkPi 10 --slave01 local[2]

可以在结果中找到

Pi is roughly 3.14XXXXX

说明我们运行成功了。

更多 Spark 相关教程见以下内容：

CentOS 7.0 下安装并配置 Spark http://www.linuxidc.com/Linux/2015-08/122284.htm

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

Spark2.0 安装配置文档 http://www.linuxidc.com/Linux/2016-09/135352.htm

Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm

Spark 官方文档 – 中文翻译 http://www.linuxidc.com/Linux/2016-04/130621.htm

CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark2.0.2 Hadoop2.6.4 全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0（伪分布式）http://www.linuxidc.com/Linux/2016-03/129068.htm

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

本文永久更新链接地址：http://www.linuxidc.com/Linux/2016-12/138617.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-21

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Solr6与Zookeeper在Tomcat环境安装部署SolrCloud集群

Cacti及其相关插件的安装

如何在Debian 9上安装Tomcat 8.5

Zabbix 监控 MySQL 状态

Let’s Encrypt+Apache+Tomcat实现免费HTTPS

Linux下ELK5 – Elasticsearch Cluster 搭建

Nginx 作为 WebSockets 代理

Zabbix使用自带模板监控MySQL

Nginx服务器操作命令(重启关闭命令)

在Ubuntu下搭建Spark群集

选择PHP与Python，可以考虑这三个问题

Centos 7平滑无缝升级PHP7.1.0到PHP 7.1.5

介绍ansible的Ad-hoc与commands模块

Linux安装使用pidstat命令以对进程数据进行监控

linux下使用tree命令以树形结构显示文件目录结构

SSH密码验证绕过

CentOS7 configuration uses the SFTP server

linux下vsftpd系统虚拟帐户使用

第三节：Bash编程易犯的错误

Linux之rar文件解压之路