Hadoop2.2.0伪分布式搭建

228次阅读

共计 7672 个字符，预计需要花费 20 分钟才能阅读完成。

一、准备 Linux 环境
1、更改 VMware 适配器设置
由于是在单机环境下进行学习的，因此选择适配器模式是 host-only 模式，如果想要联网，可以选择桥接模式，配置的方式差不多。

点击 VMware 快捷方式，右键打开文件所在位置 -> 双击 vmnetcfg.exe -> VMnet1 host-only -> 修改 subnet ip 设置网段：192.168.85.0 子网掩码：255.255.255.0 -> apply -> ok

回到 windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键 VMnet1 -> 属性 -> 双击 IPv4 -> 设置 windows 的 IP：192.168.85.100 子网掩码：255.255.255.0 -> 点击确定

在虚拟软件上 –My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok
2、修改主机名
在 linux 命令窗口敲入以下命令
vim /etc/sysconfig/network

修改主机名（带 #号的为必须修改项）
NETWORKING=yes
HOSTNAME=hucc01 ###

3、修改 ip
修改 ip 有三种方式：

第一种：通过 Linux 图形界面进行修改（比较简单）
进入 Linux 图形界面 -> 右键点击右上方的两个小电脑 -> 点击 Edit connections -> 选中当前网络 System eth0 -> 点击 edit 按钮 -> 选择 IPv4 -> method 选择为 manual -> 点击 add 按钮 -> 添加 IP：192.168.85.11 子网掩码：255.255.255.0 网关：192.168.85.1 -> apply

第二种：通过 Linux 命令窗口进行修改（难度适中）
进入 linux 命令窗口，输入以下命令

setup

Hadoop2.2.0 伪分布式搭建

选择网络配置 -> 设备配置 -> etho -> 配置好相对应静态 IP、子网掩码、默认网关 IP 等信息即可。

第三种：修改配置文件方式（程序猿专用，一般人不会）（带 #号的为必须修改项）
在 linux 命令窗口敲入以下命令
vim /etc/sysconfig/network

修改 ip 信息
DEVICE=”eth0″
BOOTPROTO=”static” ###
HWADDR=”00:0C:29:3C:BF:E7″
IPV6INIT=”yes”
NM_CONTROLLED=”yes”
ONBOOT=”yes”
TYPE=”Ethernet”
UUID=”ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c”
IPADDR=”192.168.85.11″ ###
NETMASK=”255.255.255.0″ ###
GATEWAY=”192.168.85.1″ ###

4、修改主机名与 IP 的映射关系
在 linux 命令窗口敲入以下命令
vim /etc/hosts

修改映射关系，添加如下内容
192.168.1.44 hucc01

5、关闭防火墙
# 查看防火墙状态
service iptables status

# 关闭防火墙
service iptables stop

# 查看防火墙开机启动状态
chkconfig iptables –list

# 关闭防火墙开机启动
chkconfig iptables off

6、重启 linux

reboot

————————————– 分割线 ————————————–

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

————————————– 分割线 ————————————–

更多详情见请继续阅读下一页的精彩内容：http://www.linuxidc.com/Linux/2015-02/114050p2.htm

二、安装 jdk

1、卸载 centerOS 自带的 openJDK
如果不卸载 centerOS 自带的 openJDK，那么自己安装 jdk1.7.0_55 将不会生效。
java -version

查看当前的 java 版本

Hadoop2.2.0 伪分布式搭建

rpm -qa | grep jdk

查看 centerOS 上所有的 openJDK 版本

Hadoop2.2.0 伪分布式搭建

逐个删除即可
rpm -e –nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.i686
rpm -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.i686

再次查看 centerOS 上所有的 openJDK 版本
rpm -qa | grep jdk

如果没有内容则删除成功了
2、下载并上传 jdk
到 Oracle 官网下载 jdk 的 linux 版本，我下载的是 jdk-7u55-linux-i586.tar.gz。
使用 SecureFX 将压缩包上传到 linux 上。
3、解压 jdk
# 创建文件夹
mkdir /usr/local/src

# 解压
tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/local/src/

4、将 java 添加到环境变量中
vim /etc/profile

# 在文件最后添加
export JAVA_HOME=/usr/local/src/jdk1.7.0_55
export PATH=$PATH:$JAVA_HOME/bin

# 刷新配置
source /etc/profile

三、安装 Hadoop

1、下载并上传 hadoop 安装包
从官网 http://archive.apache.org/dist/ 下载 hadoop-2.2.0.tar.gz 压缩包
使用 SecureFX 将压缩包上传到 linux 上
2、解压 hadoop
# 解压
tar -zxvf hadoop-2.2.0.tar.gz -C /usr/local/src/

3、修改配置文件（一共 5 个）
（1）修改 hadoop-env.sh
vim /usr/local/src/hadoop-2.2.0/etc/hadoop/hadoop-env.sh

设置 vim 带行号
:set nu! #带行号

# 在 27 行修改
export JAVA_HOME=/usr/local/src/jdk1.7.0_55

(2)修改 core-site.xml

vim /usr/local/src/hadoop-2.2.0/etc/hadoop/core-site.xml

在 <configuration> 标签对中添加如下信息
<!– 指定 HDFS 老大（namenode）的通信地址 –>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hucc01:9000</value>
</property>
<!– 指定 hadoop 运行时产生文件的存储路径 –>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/src/hadoop-2.2.0/tmp</value>
</property>

(3)修改 hdfs-site.xml
vim /usr/local/src/hadoop-2.2.0/etc/hadoop/hdfs-site.xml

在 <configuration> 标签对中添加如下信息
<!– 设置 hdfs 副本数量 –>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

（4）修改 mapred-site.xml
在 /usr/local/src/hadoop-2.2.0/etc/hadoop/ 目录下并没有 mapred-site.xml 文件，但是有一个 mapred-site.xml.template 文件，因此需要将 mapred-site.xml.template 重命名成 mapred-site.xml。
cd /usr/local/src/hadoop-2.2.0/etc/hadoop/
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

在 <configuration> 标签对中添加如下信息
<!– 通知框架 MR 使用 YARN –>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

（5）修改 yarn-site.xml
vim yarn-site.xml

在 <configuration> 标签对中添加如下信息
<!– reducer 取数据的方式是 mapreduce_shuffle –>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

4、将 hadoop 添加到环境变量

vim /etc/profile

# 修改 profile 的内容

export JAVA_HOME=/usr/local/src/jdk1.7.0_55
export HADOOP_HOME=/usr/local/src/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

# 刷新配置
source /etc/profile

5、格式化 HDFS（namenode）
第一次使用时要格式化
hadoop namenode -format

6、启动 hadoop
cd /usr/local/src/hadoop-2.2.0/sbin/

sh start-all.sh

启动过程中需要多次输入 yes 和你 linux 登陆口令

7、验证 hadoop 是否安装成功
jps

Hadoop2.2.0 伪分布式搭建

如果出现这样的界面，那么恭喜你，你的 hadoop 伪分布式搭建成功了！
也可以用浏览器访问：http://192.168.85.11:50070 (HDFS 管理界面) http://192.168.85.1:8088（MR 管理界面）
如果嫌输入 ip 麻烦，也可以修改 windows 的 hosts 配置文件
在这个文件中添加 linux 主机名和 IP 的映射关系
在 C:\Windows\System32\drivers\etc\hosts 文件中添加
192.168.85.11 hucc01

之后可以用浏览器访问：http://hucc01:50070 (HDFS 管理界面)
http://hucc01:8088（MR 管理界面）

四、配置 ssh 免登陆
1、生成 ssh 免登陆密钥
# 进入根目录

# 查看隐藏文件

ls -la

你会发现有一个.ssh 的文件夹

# 进入.ssh 文件夹
cd .ssh

# 生成秘钥，需要按 4 次回车
ssh-keygen -t rsa

执行完这个命令后，会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）
2、将公钥拷贝到要免登陆的机器上
# 将公钥拷贝到需要免登陆的机器上（需要输入一次密码）
ssh-copy-id -i 192.168.85.11

3、测试 ssh 免登陆是否成功

# 关闭 hadoop

cd /usr/local/src/hadoop-2.2.0/sbin/
sh stop-all.sh

本来关闭 hadoop 也需要密码的，如果你没有输入密码就关闭成功了，那么，恭喜你，你的 ssh 免登陆也配置成功了！
如果不放心，你还可以尝试再次启动 hadoop，你会发现还是不需要密码就启动成功了。
五、总结
总的来说，感觉 hadoop 的伪分布式搭建并不算难，难的是不知道如何入门，如何下手，大数据总给我一种很神秘的感觉，就让我通过博客的方式将这神秘的面纱一层一层的揭开把。fighting！

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

一、准备 Linux 环境
1、更改 VMware 适配器设置
由于是在单机环境下进行学习的，因此选择适配器模式是 host-only 模式，如果想要联网，可以选择桥接模式，配置的方式差不多。

点击 VMware 快捷方式，右键打开文件所在位置 -> 双击 vmnetcfg.exe -> VMnet1 host-only -> 修改 subnet ip 设置网段：192.168.85.0 子网掩码：255.255.255.0 -> apply -> ok

回到 windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键 VMnet1 -> 属性 -> 双击 IPv4 -> 设置 windows 的 IP：192.168.85.100 子网掩码：255.255.255.0 -> 点击确定

在虚拟软件上 –My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok
2、修改主机名
在 linux 命令窗口敲入以下命令
vim /etc/sysconfig/network

修改主机名（带 #号的为必须修改项）
NETWORKING=yes
HOSTNAME=hucc01 ###

3、修改 ip
修改 ip 有三种方式：

第一种：通过 Linux 图形界面进行修改（比较简单）
进入 Linux 图形界面 -> 右键点击右上方的两个小电脑 -> 点击 Edit connections -> 选中当前网络 System eth0 -> 点击 edit 按钮 -> 选择 IPv4 -> method 选择为 manual -> 点击 add 按钮 -> 添加 IP：192.168.85.11 子网掩码：255.255.255.0 网关：192.168.85.1 -> apply

第二种：通过 Linux 命令窗口进行修改（难度适中）
进入 linux 命令窗口，输入以下命令

setup

Hadoop2.2.0 伪分布式搭建

选择网络配置 -> 设备配置 -> etho -> 配置好相对应静态 IP、子网掩码、默认网关 IP 等信息即可。

第三种：修改配置文件方式（程序猿专用，一般人不会）（带 #号的为必须修改项）
在 linux 命令窗口敲入以下命令
vim /etc/sysconfig/network

修改 ip 信息
DEVICE=”eth0″
BOOTPROTO=”static” ###
HWADDR=”00:0C:29:3C:BF:E7″
IPV6INIT=”yes”
NM_CONTROLLED=”yes”
ONBOOT=”yes”
TYPE=”Ethernet”
UUID=”ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c”
IPADDR=”192.168.85.11″ ###
NETMASK=”255.255.255.0″ ###
GATEWAY=”192.168.85.1″ ###

4、修改主机名与 IP 的映射关系
在 linux 命令窗口敲入以下命令
vim /etc/hosts

修改映射关系，添加如下内容
192.168.1.44 hucc01

5、关闭防火墙
# 查看防火墙状态
service iptables status

# 关闭防火墙
service iptables stop

# 查看防火墙开机启动状态
chkconfig iptables –list

# 关闭防火墙开机启动
chkconfig iptables off

6、重启 linux

reboot

————————————– 分割线 ————————————–

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm