共计 4465 个字符,预计需要花费 12 分钟才能阅读完成。
这篇文章是我学习大数据的一个延续。我们将在 Ubuntu 17.10 上安装一个 Apache Spark 服务器,它将把执行器部署到 Apache Mesos 集群中。
什么是 Spark?
如果你从事这个职位,那么很可能你已经知道 Spark 是什么了。但是,以防万一,从他们的主页可以看出 Spark 是简单的:
Apache Spark 是一个快速和通用的集群计算系统。它提供 Java,Scala,Python 和 R 中的高级 API,以及支持通用执行 graphs 的优化引擎。它还支持一套丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX 以及 Spark Streaming。
必要条件
对于这个 Spark 服务器,我们需要一个虚拟机(或者物理服务器,如果有的话)至少有 8GB 的 RAM,4 个 vCPU 和 60GB 的空间。还假设你有一个 mesos 集群来运行我们的 Spark。如果你不这样做,不要害怕你还可以运行 spark,但这篇文章不会涵盖这一场景。
我们的第一步是确保更新我们的 Ubuntu 服务器。更新完成后,继续并重新启动。
# apt update && apt upgrade -y
# reboot
下一步安装 Java 8.
# apt install -y openjdk-8-jdk
由于我们将使用 Mesos 来部署,因此我们需要在系统上安装 mesos,以便我们可以指向 mesos 库。可能有一个更简单的方法(我知道这种方式糟透了)做到这一点,但这就是我知道的对我有用的方法。如果您知道更简单的方法,请在下面评论。您将需要下载并编译您要部署到的相同版本的 Mesos。对我来说是 Mesos 1.4.0。
# apt -y install build-essential python-dev libcurl4-nss-dev libsasl2-dev libsasl2-modules maven libapr1-dev libsvn-dev unzip libz-dev
# wget http://archive.apache.org/dist/mesos/1.4.0/mesos-1.4.0.tar.gz
# tar -xzvf mesos-1.4.0.tar.gz
# cd mesos-1.4.0/
# mkdir build
# cd build
# ../configure
# ln -s /usr/include/locale.h /usr/include/xlocale.h # this is needed or the compile will fail
# make -j 2 V-0
# make install
# ldconfig
我告诉过你这很糟糕,但这是必要的。
我们现在准备下载并安装 Spark。
安装 Spark
Get the latest stable release of spark from their downloads page http://spark.apache.org/downloads.html. Leave the selection boxes at their default. At the time of this writing, the latest version of Spark is 2.2.0 so we will download that version. Click on the link on step 3 and you will be taken to a list of mirrors. Copy the URL for the recommended mirror. Next go back to your Spark server and run the following command, substituting your URL:
从官方下载页面 http://spark.apache.org/downloads.html 获取最新的稳定版 Spark。将选择框保留在缺省值中。在写这篇文章时,Spark 的最新版本是 2.2.0,所以我们将下载该版本。点击第 3 步的链接,你将被带到镜像列表。复制推荐镜像的 URL。接下来返回到您的 Spark 服务器并运行以下命令,替换您的 URL:
# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-Hadoop2.7.tgz
解压下载来的包文件.
# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz
将我们的目录重命名为 spark,并将其移到更好的地方。
# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark
出于某种原因,当我下载并提取它时,我拥有了用户 500 组 500 所拥有的所有文件。请检查并确认是否属于这种情况。
# ls -al /usr/local/spark
如果是这样,那么你将需要修复权限。
# chown root:root -R /usr/local/spark
此时我们已经在我们的服务器上安装了 Spark。现在是配置它与 Mesos 一起工作的时候了。
配置 Spark 以使用 Mesos
在 Mesos slaves,你将需要安装 Spark 二进制文件,就像我们以前做的。下面是整个命令:
# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz
# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark
# chown root:root -R /usr/local/spark
当 Spark 触发将运行我们的 Spark 执行程序的 mesos 任务时,它将会像查看它的任何框架一样寻找它。确保你在所有的 Mesos slaves 上这样做。
现在回到你的 Spark 服务器上,我们需要配置它来使用 Mesos。我们要做的第一件事就是编辑我们的 spark 环境脚本。
# mv conf/spark-defaults.conf.template conf/spark-defaults.conf
编辑文件并添加以下行:
spark.mesos.task.labels=text:text1
spark.mesos.executor.home=/usr/local/spark/
这第一行就是阻止一些恼人的警告,如果你没有那样坐,你会收到。第二行告诉 Mesos 哪里可以找到我们 Mesos slaves 从站上的 Spark 二进制文件。我们现在准备在客户端模式下运行 Spark,这将给我们一个 CLI,我们可以用它来测试。
第一行是为了阻止一些恼人的警告,如果你不在那里,你会收到。第二行告诉 Mesos 在哪里可以找到 Mesos 奴隶的 Spark 二进制文件。现在我们已经准备好在客户端模式中运行 Spark,它将给我们一个 CLI,我们可以使用它来测试。
测试你的 Spark 安装
现在,一切正确配置,我们可以测试,以确保一切正常。你将需要你的 mesos masters 的 zookeeper 地址格式如下:
mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos
我实际上使用 IP 地址进行安装,当我们启动 python 客户端时,这将是必需的。导出环境变量 MESOS_NATIVE_JAVA_LIBRARY 设置为您的 libmesos.so 位置,如果您按照上面的说明执行操作:
export MESOS_NATIVE_JAVA_LIBRARY=/usr/local/lib/libmesos.so
使用以下命令运行客户端:
# ./bin/pyspark --master mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos
这将加载 python Spark 客户端,并在 Mesos 上启动一些任务。您可以通过转到您的 mesos 集群 GUI(http://{mesos-ip}:5050)并查看 Active Tasks 来验证。你应该看到两个 PySparkShell 的任务名称。您还应该看到您的 CLI 正在运行:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.2.0
/_/
Using Python version 2.7.14 (default, Sep 23 2017 22:06:14)
SparkSession available as 'spark'.
>>>
您还可以在以下位置查看 Spark 应用程序 UI:
http://{spark-ip}:4040
我希望你喜欢这个帖子。如果有帮助或者如果有问题,请发表评论并告诉我。
更多 Spark 相关教程见以下内容:
CentOS 7.0 下安装并配置 Spark http://www.linuxidc.com/Linux/2015-08/122284.htm
Ubuntu 系统搭建单机 Spark 注意事项 http://www.linuxidc.com/Linux/2017-10/147220.htm
Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm
Spark2.0 安装配置文档 http://www.linuxidc.com/Linux/2016-09/135352.htm
Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm
Spark 官方文档 – 中文翻译 http://www.linuxidc.com/Linux/2016-04/130621.htm
CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm
Spark-2.2.0 安装和部署详解 http://www.linuxidc.com/Linux/2017-08/146215.htm
Spark2.0.2 Hadoop2.6.4 全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm
Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)http://www.linuxidc.com/Linux/2016-03/129068.htm
Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里
更多 Ubuntu 相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2
本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-12/149853.htm