共计 2347 个字符,预计需要花费 6 分钟才能阅读完成。
在前一篇文章中,我们已经在 Ubuntu 搭建好了 Hadoop 的群集,接下来,我们就是需要基于这个 Hadoop 群集,搭建 Spark 的群集。由于前面已经做了大量的工作,所以接下来搭建 Spark 会简单很多。
首先打开三个虚拟机,现在我们需要安装 Scala,因为 Spark 是基于 Scala 开发的,所以需要安装 Scala。在 Ubuntu 下安装 Scala 很简单,我们只需要运行
sudo apt-get install scala
就可以安装 Scala 了。
安装完成后运行 scala -version 可以看到安装的 Scala 的版本,我现在 2.11 版,安装目录是在 /usr/share/scala-2.11。
接下来下载 Spark。到官方网站,找到最新版的 Spark 的下载地址,选择 Hadoop 版本,
http://spark.apache.org/downloads.html
wget http://spark 下载地址
当下载完毕后解压文件:
tar xvf spark-2.0.2-bin-hadoop2.7.tgz
接下来我们需要将解压的文件夹移动到指定目录,因为之前我们 Hadoop 安装到 /usr/local/hadoop,所以我们也可以把 Spark 放在 /usr/local/spark 下:
sudo mv spark-2.0.2-bin-hadoop2.7 /usr/local/spark
进入 spark 文件夹下的 conf 文件夹,里面有个 spark-env.sh.template 文件,是 spark 环境变量设置的目标,我们可以复制一个出来:
cp spark-env.sh.template spark-env.sh
然后编辑该文件
vi spark-env.sh
在文件的末尾我们添加上以下内容:
export SCALA_HOME=/usr/share/scala-2.11
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/spark
SPARK_DRIVER_MEMORY=1G
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native/:$LD_LIBRARY_PATH
这里的内容是根据我虚拟机的环境来的,如果安装的版本和路径不一样,可以根据实际情况更改。
接下来设置 slaves 文件。
cp slaves.template slaves
vi slaves
将内容改为
slave01
slave02
Spark 在一台机器上就算配置完毕,接下来在另外两台机器上也做一模一样的配置即可。
启动 Spark
在 master 上,我们先启动 Hadoop,然后运行
/usr/local/spark/sbin/start-all.sh
便可启动 Spark。
运行 jps 看看 Java 进程:
2929 Master
2982 Jps
2294 SecondaryNameNode
2071 DataNode
1929 NameNode
2459 ResourceManager
2603 NodeManager
发现比 Hadoop 启动的时候多了 Master 进程。
切换到 slave01 节点上,运行 JPS,看看进程:
1889 Worker
1705 NodeManager
1997 Jps
1551 DataNode
这里比 Hadoop 的时候多了一个 Worker 进程。说明我们的 Spark 群集已经启动成功。
下面访问 Spark 的网站:
http://192.168.100.40:8080/
可以看到 2 个 worker 都启动。
最后,我们运行一下 Spark 的示例程序:
/usr/local/spark/bin/run-example SparkPi 10 --slave01 local[2]
可以在结果中找到
Pi is roughly 3.14XXXXX
说明我们运行成功了。
更多 Spark 相关教程见以下内容:
CentOS 7.0 下安装并配置 Spark http://www.linuxidc.com/Linux/2015-08/122284.htm
Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm
Spark2.0 安装配置文档 http://www.linuxidc.com/Linux/2016-09/135352.htm
Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm
Spark 官方文档 – 中文翻译 http://www.linuxidc.com/Linux/2016-04/130621.htm
CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm
Spark2.0.2 Hadoop2.6.4 全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm
Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)http://www.linuxidc.com/Linux/2016-03/129068.htm
Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里
本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-12/138617.htm