Hadoop入门基础教程

共计 59103 个字符，预计需要花费 148 分钟才能阅读完成。

本文以 K -Master 服务器基础环境配置为例分别演示用户配置、sudo 权限配置、网路配置、关闭防火墙、安装 JDK 工具等。用户需参照以下步骤完成 KVMSlave1~KVMSlave3 服务器的基础环境配置。

开发环境

硬件环境：CentOS 6.5 服务器 4 台（一台为 Master 节点，三台为 Slave 节点）
软件环境：Java 1.7.0_45、Hadoop-1.2.1

1、安装环境

硬件环境：CentOS 6.5 服务器 4 台（一台为 Master 节点，三台为 Slave 节点）

软件环境：Java 1.7.0_45、hadoop-1.2.1

2、用户配置

1）添加一个用户

[hadoop@K-Master hadoop]$ adduser hadoop                       #新建 hadoop 用户
[hadoop@K-Master hadoop]$ passwd hadoop                            #hadoop 用户设置密码

2）建工作组

[hadoop@K-Master hadoop]$ groupadd hadoop                      #新建 hadoop 工作组

3）给已有的用户增加工作组

[hadoop@K-Master hadoop]$ usermod -G hadoop hadoop

2、sudo 权限配置

1）新建个用户组 admin

[hadoop@K-Master hadoop]# groupadd admin

2）将已有用户添加到 admin 用户组

[hadoop@K-Master hadoop]# usermod -G admin,hadoop hadoop

3）赋予修改 /etc/sudoers 文件写权限

[hadoop@K-Master hadoop]# chmod u+w /etc/sudoers

4）编辑 /etc/sudoers 文件

[hadoop@K-Master hadoop]# vi /etc/sudoers
缺省只有一条配置：root    ALL=(ALL) ALL 
在下边再加一条配置：%admin    ALL=(ALL) ALL

这样 admin 用户组就拥有了 sudo 权限，属于 admin 用户组的 hadoop 用户同样拥有了 sudo 权限。

5）编辑完成后降低权限

[hadoop@K-Master hadoop]$ chmod u-w /etc/sudoers

3、网络配置

1）配置 IP 地址
Hadoop 入门基础教程

详细配置信息如下所示：

[hadoop@K-Master hadoop]$ su hadoop                #切换为 hadoop 用户
[hadoop@K-Master hadoop]$ sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0
HWADDR=06:8D:30:00:00:27
TYPE=Ethernet
BOOTPROTO=static
IPADDR=192.168.100.147
PREFIX=24
GATEWAY=192.168.100.1
DNS1=192.168.100.1
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
NAME=eth0
UUID=660a57a1-5edf-4cdd-b456-e7e1059aef11
ONBOOT=yes
LAST_CONNECT=1411901185

2）重启网络服务使网络设置生效

[hadoop@K-Master hadoop]$ sudo service network restart
Shutting down interface eth0:  Device state: 3 (disconnected)
                                                    [OK]
Shutting down loopback interface:                   [OK]
Bringing up loopback interface:                     [OK]
Bringing up interface eth0:  Active connection state: activated
Active connection path: /org/freedesktop/NetworkManager/ActiveConnection/1
                                                    [OK]

3）测试 IP 网络配置

通过 ifconfig 命令查看网络的 ip 地址，如下信息显示 eth0 无线网卡的 IP 地址为 192.168.100.147，与上述我们配置的 IP 地址吻合，表明 IP 地址配置成功。

[hadoop@K-Master ~]$ ifconfig
eth0  Link encap:Ethernet  HWaddr 06:8D:30:00:00:27
  inet addr:192.168.100.147  Bcast:192.168.100.255  Mask:255.255.255.0
  inet6 addr: fe80::48d:30ff:fe00:27/64 Scope:Link
  UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
  RX packets:59099169 errors:0 dropped:0 overruns:0 frame:0
  TX packets:30049168 errors:0 dropped:0 overruns:0 carrier:0
  collisions:0 txqueuelen:1000
  RX bytes:12477388443 (11.6 GiB)  TX bytes:8811418526 (8.2 GiB)

loLink encap:Local Loopback
  inet addr:127.0.0.1  Mask:255.0.0.0
  inet6 addr: ::1/128 Scope:Host
  UP LOOPBACK RUNNING  MTU:16436  Metric:1
  RX packets:2266013 errors:0 dropped:0 overruns:0 frame:0
  TX packets:2266013 errors:0 dropped:0 overruns:0 carrier:0
  collisions:0 txqueuelen:0
  RX bytes:666482169 (635.6 MiB)  TX bytes:666482169 (635.6 MiB)

4）修改 Host 主机名

[hadoop@K-Master hadoop]$ sudo vi /etc/sysconfig/network
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME=Master
[hadoop@K-Master hadoop]$ sudo vi /etc/hosts
127.0.0.1               localhost.localdomain
::1                     hdirect30 hdirect30
192.168.100.201         K-Master

5）重启主机使得主机名生效

[hadoop@K-Master hadoop]$ sudo reboot

4、关闭防火墙

在启动前关闭集群中所有机器的防火墙，不然会出现 datanode 开后又自动关闭。

1）查看防火墙状态

[hadoop@K-Master ~]$ sudo service iptables status
iptables: Firewall is not running.

2）关闭防火墙

[hadoop@K-Master hadoop]$ sudo service iptables stop
iptables: Setting chains to policy ACCEPT: filter   [OK]
iptables: Flushing firewall rules:                  [OK]
iptables: Unloading modules:                        [OK]

3）永久关闭防火墙

[hadoop@K-Master hadoop]$ sudo chkconfig iptables off

4）关闭 SELINUX

[hadoop@K-Master hadoop]$ sudo vi /etc/selinux/config
SELINUX=disabled

5、安装 JDK 工具

1）解压

[hadoop@K-Master ~]$ scp hadoop@192.168.0.201:/home/hadoop/jdk-7u65-linux-x64.rpm .
[hadoop@K-Master ~]$ sudo rpm -ivh jdk-7u65-linux-x64.rpm

2）编辑”/etc/profile”文件，在后面添加 Java 的”JAVA_HOME”、”CLASSPATH”以及”PATH”内容。

[hadoop@K-Master ~]$ sudo vim /etc/profile
#JAVA
export JAVA_HOME=/usr/java/jdk1.7.0_65
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
#HADOOP
export HADOOP_HOME=/usr/hadoop-1.2.1
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=1

3）使配置文件生效

[hadoop@K-Master ~]$ source /etc/profile

更多详情见请继续阅读下一页的精彩内容：http://www.linuxidc.com/Linux/2015-03/114669p2.htm

————————————– 分割线 ————————————–

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

单机模式所需要的系统资源是最少的，这种安装模式下，Hadoop 的 core-site.xml、mapred-site.xml、hdfs-site.xml 配置文件均为空。默认情况下，官方 hadoop-1.2.1.tar.gz 文件默认使用的就是单机安装模式。当配置文件为空时，Hadoop 完全运行在本地，不与其他节点交互，也不使用 Hadoop 文件系统，不加载任何守护进程，该模式主要用于开发调试 MapReduce 应用程序的逻辑，不与任何守护进程交互进而避免复杂性。以 hadoop 用户远程登录 K -Master 服务器，在 K -Master 服务器上安装 Hadoop 过程如下。

开发环境

硬件环境：CentOS 6.5 服务器 4 台（一台为 Master 节点，三台为 Slave 节点）

软件环境：Java 1.7.0_45、hadoop-1.2.1

1、安装 Hadoop

1）以 hadoop 用户远程登录 K -Master 服务器，下载 hadoop-1.2.1.tar.gz，并将其拷贝到 K -Master 服务器的 /home/hadoop/ 目录下。

2）解压 hadoop-1.2.1.tar.gz

[hadoop@KVM-Master ~]$ su hadoop

[hadoop@KVM-Master ~]$ cd /usr

[hadoop@KVM-Master usr]$ sudo tar –zxvf  /home/hadoop/hadoop-1.2.1.tar.gz

3) 重命名 hadoop

[hadoop@KVM-Master usr]$ sudo mv hadoop-1.2.1/ hadoop/

4）将文件夹”hadoop”读权限分配给 hadoop 用户

很关键到一步，便于 hadoop 用户对该文件夹的文件拥有读写权限，不然后续 hadoop 启动后，无法在该文件夹创建文件和写入日志信息。

[hadoop@KVM-Master usr]$ sudo chown -R hadoop:hadoop /usr/hadoop

5）删除安装包

[hadoop@KVM-Master ~]$ rm –rf /home/hadoop/hadoop-1.2.1.tar.gz #删除”hadoop-1.2.1.tar.gz”安装包

2、配置环境变量

1）配置 /etc/profile

[hadoop@KVM-Master ~]$ sudo vi /etc/profile

#HADOOP

export HADOOP_HOME=/usr/hadoop

export PATH=$PATH:$HADOOP_HOME/bin 

export HADOOP_HOME_WARN_SUPPRESS=1

2）使得配置文件在当前终端立即生效

[hadoop@KVM-Master ~] $source /etc/profile

3、启动 Hadoop

1）使用 start-al.sh 命令启动 hadoop

[hadoop@KVM-Master ~] $start-all.sh

2）使用 jps 查看启动是否成功

[hadoop@KVM-Master ~] $jps

jps

因为是单机模式，NameNode 和 JobTracker 等都没有启动，怎么知道安装是否成功了？

3）查看 HDFS 系统

[hadoop@KVM-Master ~] $ hadoop fs -ls /

通过 hadoop fs -ls / 命令查看 Hadoop HDFS 文件管理系统，显示的像 Linux 文件系统目录。若出现上述所示结果，表明 Hadoop 单机版安装成功。到目前为止，我们并没有对 Hadoop 的配置文件做任何修改，全是默认配置，即配置文件全为空，如下所示。

[hadoop@K-Master hadoop] vi conf/core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="https://www.linuxidc.com/Linux/2015-03/configuration.xsl"?>



<!-- Put site-specific property overrides in this file. -->



<configuration>



</configuration>

开发环境

硬件环境：CentOS 6.5 服务器 4 台（一台为 Master 节点，三台为 Slave 节点）
软件环境：Java 1.7.0_45、Hadoop-1.2.1

1、安装环境

硬件环境：CentOS 6.5 服务器 4 台（一台为 Master 节点，三台为 Slave 节点）

软件环境：Java 1.7.0_45、hadoop-1.2.1

2、用户配置

1）添加一个用户

[hadoop@K-Master hadoop]$ adduser hadoop                       #新建 hadoop 用户
[hadoop@K-Master hadoop]$ passwd hadoop                            #hadoop 用户设置密码

2）建工作组

[hadoop@K-Master hadoop]$ groupadd hadoop                      #新建 hadoop 工作组

3）给已有的用户增加工作组

[hadoop@K-Master hadoop]$ usermod -G hadoop hadoop

2、sudo 权限配置

1）新建个用户组 admin

[hadoop@K-Master hadoop]# groupadd admin

2）将已有用户添加到 admin 用户组

[hadoop@K-Master hadoop]# usermod -G admin,hadoop hadoop

3）赋予修改 /etc/sudoers 文件写权限

[hadoop@K-Master hadoop]# chmod u+w /etc/sudoers

4）编辑 /etc/sudoers 文件

[hadoop@K-Master hadoop]# vi /etc/sudoers
缺省只有一条配置：root    ALL=(ALL) ALL 
在下边再加一条配置：%admin    ALL=(ALL) ALL

这样 admin 用户组就拥有了 sudo 权限，属于 admin 用户组的 hadoop 用户同样拥有了 sudo 权限。

5）编辑完成后降低权限

[hadoop@K-Master hadoop]$ chmod u-w /etc/sudoers

3、网络配置

1）配置 IP 地址
Hadoop 入门基础教程

详细配置信息如下所示：

[hadoop@K-Master hadoop]$ su hadoop                #切换为 hadoop 用户
[hadoop@K-Master hadoop]$ sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0
HWADDR=06:8D:30:00:00:27
TYPE=Ethernet
BOOTPROTO=static
IPADDR=192.168.100.147
PREFIX=24
GATEWAY=192.168.100.1
DNS1=192.168.100.1
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
NAME=eth0
UUID=660a57a1-5edf-4cdd-b456-e7e1059aef11
ONBOOT=yes
LAST_CONNECT=1411901185

2）重启网络服务使网络设置生效

[hadoop@K-Master hadoop]$ sudo service network restart
Shutting down interface eth0:  Device state: 3 (disconnected)
                                                    [OK]
Shutting down loopback interface:                   [OK]
Bringing up loopback interface:                     [OK]
Bringing up interface eth0:  Active connection state: activated
Active connection path: /org/freedesktop/NetworkManager/ActiveConnection/1
                                                    [OK]

3）测试 IP 网络配置

通过 ifconfig 命令查看网络的 ip 地址，如下信息显示 eth0 无线网卡的 IP 地址为 192.168.100.147，与上述我们配置的 IP 地址吻合，表明 IP 地址配置成功。

[hadoop@K-Master ~]$ ifconfig
eth0  Link encap:Ethernet  HWaddr 06:8D:30:00:00:27
  inet addr:192.168.100.147  Bcast:192.168.100.255  Mask:255.255.255.0
  inet6 addr: fe80::48d:30ff:fe00:27/64 Scope:Link
  UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
  RX packets:59099169 errors:0 dropped:0 overruns:0 frame:0
  TX packets:30049168 errors:0 dropped:0 overruns:0 carrier:0
  collisions:0 txqueuelen:1000
  RX bytes:12477388443 (11.6 GiB)  TX bytes:8811418526 (8.2 GiB)

loLink encap:Local Loopback
  inet addr:127.0.0.1  Mask:255.0.0.0
  inet6 addr: ::1/128 Scope:Host
  UP LOOPBACK RUNNING  MTU:16436  Metric:1
  RX packets:2266013 errors:0 dropped:0 overruns:0 frame:0
  TX packets:2266013 errors:0 dropped:0 overruns:0 carrier:0
  collisions:0 txqueuelen:0
  RX bytes:666482169 (635.6 MiB)  TX bytes:666482169 (635.6 MiB)

4）修改 Host 主机名

[hadoop@K-Master hadoop]$ sudo vi /etc/sysconfig/network
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME=Master
[hadoop@K-Master hadoop]$ sudo vi /etc/hosts
127.0.0.1               localhost.localdomain
::1                     hdirect30 hdirect30
192.168.100.201         K-Master

5）重启主机使得主机名生效

[hadoop@K-Master hadoop]$ sudo reboot

4、关闭防火墙

在启动前关闭集群中所有机器的防火墙，不然会出现 datanode 开后又自动关闭。

1）查看防火墙状态

[hadoop@K-Master ~]$ sudo service iptables status
iptables: Firewall is not running.

2）关闭防火墙

[hadoop@K-Master hadoop]$ sudo service iptables stop
iptables: Setting chains to policy ACCEPT: filter   [OK]
iptables: Flushing firewall rules:                  [OK]
iptables: Unloading modules:                        [OK]

3）永久关闭防火墙

[hadoop@K-Master hadoop]$ sudo chkconfig iptables off

4）关闭 SELINUX

[hadoop@K-Master hadoop]$ sudo vi /etc/selinux/config
SELINUX=disabled

5、安装 JDK 工具

1）解压

[hadoop@K-Master ~]$ scp hadoop@192.168.0.201:/home/hadoop/jdk-7u65-linux-x64.rpm .
[hadoop@K-Master ~]$ sudo rpm -ivh jdk-7u65-linux-x64.rpm

2）编辑”/etc/profile”文件，在后面添加 Java 的”JAVA_HOME”、”CLASSPATH”以及”PATH”内容。

[hadoop@K-Master ~]$ sudo vim /etc/profile
#JAVA
export JAVA_HOME=/usr/java/jdk1.7.0_65
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
#HADOOP
export HADOOP_HOME=/usr/hadoop-1.2.1
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=1

3）使配置文件生效

[hadoop@K-Master ~]$ source /etc/profile