共计 3000 个字符,预计需要花费 8 分钟才能阅读完成。
开发环境总体版本信息如下:
1、Linux:CentOS 6.8
2、Java 版本:jdk-8u172-linux-x64.tar.gz
3、Hadoop 版本:hadoop-3.1.0.tar.gz
4、scala 版本:scala-2.12.6.tgz
5、Python 版本:Python-3.6.5.tgz
6、spark 版本:spark-2.3.0-bin-hadoop2.7.tgz
7、zookeeper 版本:zookeeper-3.4.10.tar.gz
8、hive 版本:
9、kafka 版本:
10、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)
一、java 的安装
1、上传 jdk 安装包到 /usr/local/lib 目录下,并解压缩
2、把解压的文件夹复制到另外两台机子
3、三台服务器分别修改 bigdata 用户的环境变量
4、使配置生效并验证
二、hadoop 的安装
1、bigdata 用户家目录下创建目录 bigdata,上传 hadoop 安装包并解压
2、进入 hadoop 配置文件目录,修改 hadoop 配置
3、修改 core-site.xml,添加红色方框的内容
4、修改 hdfs-site.xml,并创建对应的目录
5、修改 yarn-site.xml
6、修改 workers(老版本为 slaves)
7、修改 hadoop-env.sh,增加 JAVA_HOME
8、把 master 上配置好的 hadoop 分发到每一个 slave 上
9、只需在 master 上 bigdata 用户下配置环境变量
10、使环境变量生效并检查
11、首次运行 hdfs,需要先格式化 hdfs【hdfs namenode -format】,然后启动 hdfs【start-dfs.sh】
12、可访问 http://192.168.0.110:9870【192.168.0.110 为 master 的 ip 地址,老版本 hadoop 的端口为 50070】看下是否部署成功;如需停止 hdfs,使用【stop-dfs.sh】
13、也可输入名 jps,查看是否有以下进程
14、启动 yarn【start-yarn.sh】
15、访问 http://192.168.0.110:8088/cluster,查看 yarn 是否正常工作,停止 yarn 使用【stop-yarn.sh】
16、也可输入名 jps,查看是否有以下进程
综上,hadoop 集群安装完毕!
三、scala 的安装
1、切换到 root 用户下,下载 scala 并上传到 /usr/local/lib 目录下,然后解压
2、把解压后的文件分发到 slave1 和 slave2
scp -r scala-2.12.6 root@slave1:/usr/local/lib
scp -r scala-2.12.6 root@slave2:/usr/local/lib
3、分别在三台服务器上修改 bigdata 用户的环境变量
4、验证环境变量是否生效
5、运行 scala 命令验证是否安装成功,并按 ctrl+ z 退出
四、python 的安装
1、在集群上运行 pyspark,需要先安装 zlib 和 gcc 相关的软件包
yum -y install gcc*
2、下载 python 安装包,并上传,然后解压
3、进入 /usr/local/lib/,修改 Modules/Setup.dist【老版本是 Setup】,找到红色一行,并把注释去掉
4、执行./configure
5、make
6、make install
7、查看系统原有 python 版本,并重命名
8、修改 /usr/bin/yum
9、重新建立 python 的软连接
7、执行 python 命令,检查是否安装好
五、spark 的安装
1、下载并上传 spark 安装文件到 bigdata 用户家目录下的 bigdata 目录下,然后解压
2、配置 slaves
3、配置 spark-env.sh
4、把配置好的 spark 分发 slave1 和 slave2 上面
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata
5、在 master 上配置环境变量
source ~/.bash_profile
6、启动 spark
7、确认 spark 已经启动【jps 命令,或者访问 http://192.168.0.110:8080】
8、测试 spark 代码【ctrl+ z 退出】
六、zookeeper 的安装
1、下载并上传 zookeeper 文件,然后解压
2、修改配置文件
3、创建配置文件配置的目录
4、将配置好的 zookeeper 分发到 slave1 和 slave2
5、分别在 3 台服务器的~/bigdata/zookeeper/data 目录中新增文件 myid 并修改
master 上 myid 的内容为:0
slave1 上 myid 的内容为:1
slave2 上 myid 的内容为:2
6、分别到 3 台服务器中启动节点 zk 服务
7、查看每一个服务器上的 zk 的状态
七、hive 的安装
1、安装 MySQL
安装:yum install -y mysql-server
启动:service mysqld start
修改 root 用户密码:mysqladmin -u root password ‘root’
创建数据库 hive 并授权:
2、下载并上传 hive 安装包,然后解压
3、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件 hive-site.xml
4、编辑 hive-env.sh
5、下载 mysql 的 jdbc 驱动 mysql-connector-java-5.1.44-bin.jar,上传 /home/bigdata/bigdata/apache-hive-2.3.3-bin/lib
6、配置 master 的环境变量
source ~/.bash_profile
7、创建 hive-site.xml 里面配置的目录并授权
8、指定 hive 数据库类型并初始化
9、验证 hive 的 mysql 数据库是否安装成功【hive 数据库下面是否有表】
10、运行 hive 前首先要确保 meta store 服务已经启动:先创建 hive 运行日志目录 logs,再运行 HIVE
验证:
运行 HIVE
八、kafka 的安装
1、下载 kafka 并上传,然后解压
2、创建日志目录,修改配置文件
mkdir /home/bigdata/bigdata/kafka-logs-new
3、将 kafka 分发到 slave1 和 slave2
4、分别修改 slave1 和 slave2 上面的 server.properties 文件
slave1:broker.id=1
slave2:broker.id=2
5、分别在三台服务器上启动 broker server
nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &
6、在 master 上创建 topic
7、查看 topic
8、启动 producer 发送消息
9、启动 consumer 消费消息
10、效果如下