Hadoop 2.6.0伪分布式配置详解

271次阅读

没有评论

共计 3346 个字符，预计需要花费 9 分钟才能阅读完成。

首先先不看理论，搭建起环境之后再看；搭建伪分布式是为了模拟环境，调试方便。

电脑是 Windows 10，用的虚拟机 VMware Workstation 12 Pro，跑的 Linux 系统是 CentOS6.5，安装的 Hadoop2.6.0，jdk1.8；

1. 准备工作

准备工作：把 JDK 和 Hadoop 安装包上传到 linux 系统（hadoop 用户的根目录）

系统环境：IP：192.168.80.99，

linux 用户：

root/123456，hadoop/123456

主机名：node

把防火墙关闭，root 执行：service iptables stop

2.jdk 安装

1.在 hadoop 用户的根目录，Jdk解压，（hadoop用户操作）tar -zxvf jdk-8u65-linux-x64.tar.gz 解压完成后，在 hadoop 用户的根目录有一个jdk1.8.0_65 目录

2. 配置环境变量，需要修改 /etc/profile 文件（root用户操作）切到 root 用户，输入 su 命令 vi /etc/profile 进去编辑器后，输入 i，进入vi 编辑器的插入模式在profile文件最后添加

JAVA_HOME=/home/hadoop/jdk1.8.0_65

export PATH=$PATH:$JAVA_HOME/bin

编辑完成后，按下 esc 退出插入模式输入：，这时在左下角有一个冒号的标识

q 退出不保存

wq 保存退出

q! 强制退出

3.把修改的环境变量生效（hadoop 用户操作）

执行source /etc/profile

4. 执行 java -version 查看版本，如果成功证明 jdk 配置成功

3.Hadoop 安装

1. 在 hadoop 用户的根目录，解压（hadoop 用户操作）

tar -zxvf hadoop-2.6.0.tar.gz

解压完成在 hadoop 用户的根目录下有一个hadoop-2.6.0 目录

2. 修改配置文件 hadoop-2.6.0/etc/hadoop/hadoop-env.sh（hadoop用户操作）

export JAVA_HOME=/home/hadoop/jdk1.8.0_65

3. 修改配置文件 hadoop-2.6.0/etc/hadoop/core-site.xml，添加（hadoop用户操作）

<name>fs.defaultFS</name>

</property>

4. 修改配置文件 hadoop-2.6.0/etc/hadoop/hdfs-site.xml，添加（hadoop 用户操作）

<name>dfs.replication</name>

</property>

5. 修改修改配置文件 hadoop-2.6.0/etc/hadoop/mapred-site.xml （hadoop用户操作）, 这个文件没有，需要复制一份

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

添加

<name>mapreduce.framework.name</name>

</property>

6. 修改配置文件 hadoop-2.6.0/etc/hadoop/yarn-site.xml，添加（hadoop用户操作）

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

7. 修改主机名称（root用户操作），重启生效

vi /etc/sysconfig/network

修改 HOSTNAME的值为用户名

8. 修改 /etc/hosts 文件（root用户操作）, 添加：ip 主机名称

192.168.44.199（用自己的 ip，下边讲如何获得）node

附：查看 ip 地址

编辑 –> 虚拟网络编辑器

Hadoop 2.6.0 伪分布式配置详解

net 模式，选 DHCP 设置，得到 ip 地址起始

Hadoop 2.6.0 伪分布式配置详解

net 设置，得到网关

Hadoop 2.6.0 伪分布式配置详解

点右边小电脑，选择 VPN Connections–>Configue VPN

Hadoop 2.6.0 伪分布式配置详解

选中 eth0，点有右边 edit

Hadoop 2.6.0 伪分布式配置详解

选择 IP Settings，根据自己的 ip 按图修改，Address 就是你的 ip 地址，在起始 ip 地址和结束 ip 地址之间选一个就行

Hadoop 2.6.0 伪分布式配置详解

9.格式化 HDFS，在hadoop 解压目录下，执行如下命令：（hadoop用户操作）

bin/hdfs namenode -format

注意：格式化只能操作一次，如果因为某种原因，集群不能用，需要再次格式化，需要把上一次格式化的信息删除，在 /tmp 目录里执行 rm –rf *

10.启动集群，在 hadoop 解压目录下，执行如下命令：（hadoop用户操作，截图用机后来改过，主机为 gp）

启动集群：sbin/start-all.sh 需要输入四次当前用户的密码 ( 通过配置 ssh 互信解决，截图用机已经配置过 ssh 不用输密码)

Hadoop 2.6.0 伪分布式配置详解

启动后，在命令行输入 jps 有以下输出

Hadoop 2.6.0 伪分布式配置详解

关闭集群：sbin/stop-all.sh 需要输入四次当前用户的密码 ( 通过配置 ssh 互信解决，我的同上)

Hadoop 2.6.0 伪分布式配置详解

4.SSH 互信配置（hadoop 用户操作）
rsa 加密方法，公钥和私钥
1. 生成公钥和私钥
在命令行执行 ssh-keygen，然后回车，然后会提示输入内容，什么都不用写，一路回车
在 hadoop 用户根目录下，有一个.ssh 目录
id_rsa 私钥
id_rsa.pub 公钥
known_hosts 通过 SSH 链接到本主机，都会在这里有记录
2. 把公钥给信任的主机(本机)
在命令行输入 ssh-copy-id 主机名称
ssh-copy-id hadoop
复制的过程中需要输入信任主机的密码
3. 验证，在命令行输入：ssh 信任主机名称
ssh hadoop
如果没有提示输入密码，则配置成功

Hadoop 2.6.0 伪分布式配置详解

至此，大功告成。

Hadoop2.3-HA 高可用集群环境搭建 http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop 项目之基于 CentOS7 的 Cloudera 5.10.1（CDH）的安装部署 http://www.linuxidc.com/Linux/2017-04/143095.htm

Hadoop2.7.2 集群搭建详解（高可用）http://www.linuxidc.com/Linux/2017-03/142052.htm

使用 Ambari 来部署 Hadoop 集群（搭建内网 HDP 源）http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04 下 Hadoop 集群安装 http://www.linuxidc.com/Linux/2017-02/140783.htm

Ubuntu 16.04 上构建分布式 Hadoop-2.7.3 集群 http://www.linuxidc.com/Linux/2017-07/145503.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 http://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3+Spark2.1.0 完全分布式集群搭建过程 http://www.linuxidc.com/Linux/2017-06/144926.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-07/146000.htm