Spark单机部署及样例运行

211次阅读

共计 2581 个字符，预计需要花费 7 分钟才能阅读完成。

spark 单机运行部署

环境预装

需要预先下载 jdk 和 spark。机器使用 CentOS 6.6(推荐)。然后依次运行

 [root@spark-master root]# cd /root
 
# 安装必要的软件
[root@spark-master root]# yum install -y tar git curl wget
 
# 下载 jdk
[root@spark-master root]# wget --no-check-certificate --no-cookies --header "Cookie: Oraclelicense=accept-securebackup-cookie"  http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm
 
# 安装 jdk
[root@spark-master root]# rpm -ivh jdk-8u91-linux-x64.rpm
 
# 下载 spark
[root@spark-master root]# wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-Hadoop2.6.tgz
  
# 解压 spark
[root@spark-master root]# tar xzvf spark-1.6.2-bin-hadoop2.6.tgz

配置

关闭 selinux。setenfore 0。
通过 hostname 查看机器名，然后加入到 /etc/hosts 中。
配置 /etc/profile。在文件最后添加export JAVA_HOME=/usr/java/jdk1.8.0_91。然后运行source /etc/profile 使其生效。

运行 spark 服务

启动 spark master 服务

 [root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-master.sh

启动 spark node 服务

 [root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-slave.sh spark://node1:7077

node1 为机器名。根据实际的机器名进行修改。

spark 样例运行

通过 pyspark 进行运算

这里以统计 /etc/profile 的行数为例。

 [root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6/bin
[root@spark-master bin]# ./pyspark --master local[2]
 
# 导入数据
>>> distFile = sc.textFile("/etc/profile")
 
# 统计行数
>>> distFile.count()

这里 local[2] 代表了在本地启动两个线程模拟 node 进行计算。如果搭建完成了本地的搭建，即可以使用./pyspark --master spark://node1:7077, 从而使用本地的 node 进行计算。

任务提交

pyspark 是使用交互的方式进行提交任务。当然也可以通过 spark-submit 进行提交。

首先创建 test.py 文件，文件内容如下：

 from pyspark import SparkContext
sc = SparkContext("local", "Simple App")
distFile = sc.textFile("/etc/profile")
print distFile.count()

使用 spark-submit 提交任务。

 [root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./bin/spark-submit --master local[2] test.py

参考资料

spark 官网文档
spark 入门
spark 部署
spark 编程指南

更多 Spark 相关教程见以下内容：

CentOS 7.0 下安装并配置 Spark http://www.linuxidc.com/Linux/2015-08/122284.htm

Ubuntu 系统搭建单机 Spark 注意事项 http://www.linuxidc.com/Linux/2017-10/147220.htm

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

Spark2.0 安装配置文档 http://www.linuxidc.com/Linux/2016-09/135352.htm

Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm

Spark 官方文档 – 中文翻译 http://www.linuxidc.com/Linux/2016-04/130621.htm

CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark-2.2.0 安装和部署详解 http://www.linuxidc.com/Linux/2017-08/146215.htm

Spark2.0.2 Hadoop2.6.4 全分布式配置详解 http://www.linuxidc.com/Linux/2016-11/137367.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0（伪分布式）http://www.linuxidc.com/Linux/2016-03/129068.htm

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-10/147499.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-21

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Memcached入门基础教程

Ubuntu 16.04上构建分布式Hadoop-2.7.3集群

有一台以上的服务器，都有理由来尝试云操作系统

HBase 0.98.1集群安装

nf_conntrack: table full, dropping packet. 终结篇

RedHat Linux 6.5 安装 Hadoop 2.7.3

在Linux(Ubuntu)下搭建ASP.NET Core跨平台运行环境

SVN版本控制系统快速参考

etcd使用之ttl不准确问题

Spark单机部署及样例运行

spark 单机运行部署

环境预装

配置

运行 spark 服务

spark 样例运行

通过 pyspark 进行运算

任务提交

参考资料

开源堡垒机JumpServer配置教程：使用步骤与配置

申请腾讯混元的API Key并且使用LobeChat调用混元AI

手把手教拥有你自己的大模型ChatGPT和Gemini等应用-开源lobe-chat

【开源安全保护】如何安装JumpServer堡垒机

Docker部署搭建一个开源强大的图书管理系统

几种负载均衡的算法原理及代码实现

把浏览器中写代码，春节假期也要’愉快’的coding

第一节：Bash编程易犯的错误

教你Linux下如何使用inode删除文件

Linux删除乱码文件的方法

	[root@spark-master root]# cd /root

	# 安装必要的软件
	[root@spark-master root]# yum install -y tar git curl wget

	# 下载 jdk
	[root@spark-master root]# wget --no-check-certificate --no-cookies --header "Cookie: Oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm

	# 安装 jdk
	[root@spark-master root]# rpm -ivh jdk-8u91-linux-x64.rpm

	# 下载 spark
	[root@spark-master root]# wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-Hadoop2.6.tgz

	# 解压 spark
	[root@spark-master root]# tar xzvf spark-1.6.2-bin-hadoop2.6.tgz

	[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6
	[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-master.sh

	[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6/bin
	[root@spark-master bin]# ./pyspark --master local[2]

	# 导入数据
	>>> distFile = sc.textFile("/etc/profile")

	# 统计行数
	>>> distFile.count()

	from pyspark import SparkContext
	sc = SparkContext("local", "Simple App")
	distFile = sc.textFile("/etc/profile")
	print distFile.count()