共计 2581 个字符,预计需要花费 7 分钟才能阅读完成。
spark 单机运行部署
环境预装
需要预先下载 jdk 和 spark。机器使用 CentOS 6.6(推荐)。然后依次运行
[root@spark-master root]# cd /root
# 安装必要的软件
[root@spark-master root]# yum install -y tar git curl wget
# 下载 jdk
[root@spark-master root]# wget --no-check-certificate --no-cookies --header "Cookie: Oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm
# 安装 jdk
[root@spark-master root]# rpm -ivh jdk-8u91-linux-x64.rpm
# 下载 spark
[root@spark-master root]# wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-Hadoop2.6.tgz
# 解压 spark
[root@spark-master root]# tar xzvf spark-1.6.2-bin-hadoop2.6.tgz
配置
- 关闭 selinux。
setenfore 0
。 - 通过
hostname
查看机器名,然后加入到/etc/hosts
中。 - 配置
/etc/profile
。在文件最后添加export JAVA_HOME=/usr/java/jdk1.8.0_91
。然后运行source /etc/profile
使其生效。
运行 spark 服务
启动 spark master 服务
[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-master.sh
启动 spark node 服务
[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-slave.sh spark://node1:7077
node1 为机器名。根据实际的机器名进行修改。
spark 样例运行
通过 pyspark 进行运算
这里以统计 /etc/profile
的行数为例。
[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6/bin
[root@spark-master bin]# ./pyspark --master local[2]
# 导入数据
>>> distFile = sc.textFile("/etc/profile")
# 统计行数
>>> distFile.count()
这里 local[2]
代表了在本地启动两个线程模拟 node 进行计算。如果搭建完成了本地的搭建,即可以使用./pyspark --master spark://node1:7077
, 从而使用本地的 node 进行计算。
任务提交
pyspark 是使用交互的方式进行提交任务。当然也可以通过 spark-submit
进行提交。
首先创建 test.py 文件,文件内容如下:
from pyspark import SparkContext
sc = SparkContext("local", "Simple App")
distFile = sc.textFile("/etc/profile")
print distFile.count()
使用 spark-submit
提交任务。
[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./bin/spark-submit --master local[2] test.py
参考资料
- spark 官网文档
- spark 入门
- spark 部署
- spark 编程指南
更多 Spark 相关教程见以下内容:
CentOS 7.0 下安装并配置 Spark http://www.linuxidc.com/Linux/2015-08/122284.htm
Ubuntu 系统搭建单机 Spark 注意事项 http://www.linuxidc.com/Linux/2017-10/147220.htm
Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm
Spark2.0 安装配置文档 http://www.linuxidc.com/Linux/2016-09/135352.htm
Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm
Spark 官方文档 – 中文翻译 http://www.linuxidc.com/Linux/2016-04/130621.htm
CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm
Spark-2.2.0 安装和部署详解 http://www.linuxidc.com/Linux/2017-08/146215.htm
Spark2.0.2 Hadoop2.6.4 全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm
Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)http://www.linuxidc.com/Linux/2016-03/129068.htm
Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里
本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-10/147499.htm