在Ubuntu 14.04 LTS上安装部署Hadoop 2.7.1（伪分布式）

192次阅读

没有评论

共计 4831 个字符，预计需要花费 13 分钟才能阅读完成。

1、安装 Ubuntu 14.04 Desktop LTS

下载 ISO 文件，ubuntu-14.04.1-desktop-amd64.iso。
在 VirtualBox 或者 VMware 中新建虚拟机，将 ISO 文件设置为启动光盘。
Windows 7 下用 VMware Workstation 10 虚拟机安装 Ubuntu 14.04 http://www.linuxidc.com/Linux/2014-04/100473.htm
一路下一步，在需要输入用户的地方，输入用户名 linuxidc，直到系统安装完成。
重启虚拟机，使用 linuxidc 登录系统。设置 root 的密码，输入 sudo passwd 命令：

linuxidc@hduser-VirtualBox:~$ sudo passwd
[sudo] password for linuxidc:（输入自己的密码）
输入新的 UNIX 密码：（设置 root 密码）
重新输入新的 UNIX 密码：（再次设置 root 密码）
passwd：已成功更新密码

为了便于后面操作，在ubuntu 内安装增强功能（virtualbox 增强功能或者 vmtools）
添加用户到 sudo 组：

命令：sudo adduser linuxidc sudo。如果用户已经在此组内会提示。

添加组 Hadoop，并将 linuxidc 添加至组 hadoop（groups 命令可以查看用户所在的组）：

su
addgroup hadoop
usermod -a -G hadoop linuxidc

2、配置 ssh 免密码登录

安装 ssh server：sudo apt-get install openssh-server
cd ~/.ssh/ # 若没有该目录，请先执行一次 ssh localhost
ssh-keygen -t rsa # 会有提示，都按回车就可以
cat id_rsa.pub >> authorized_keys # 加入授权
使用 ssh localhost 试试能否直接登录

3、配置 JDK

到 Oracle 官网下载 JDK1.7，http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html。下载jdk-7u79-linux-x64.tar.gz。
由于准备将 JDK 安装至 /usr/lib/jvm 下，所以先到 /usr/lib/ 目录下建立 jvm 文件夹

cd /usr/lib/
sudo mkdir jvm

解压下载的安装包至 jvm 文件夹(jdk1.7.0_79)

sudo tar zxvf /home/linuxidc/ 桌面 /jdk-7u79-linux-x64.tar.gz -C /usr/lib/jvm

设置 JAVA_HOME：

nano ~/.bashrc
在第一行前面增加：export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79，保存退出。
使设置立即生效：source ~/.bashrc

测试 JAVA_HOME 是否设置成功，输出了上面设置的路径表示成功：

echo $JAVA_HOME

4、安装 Hadoop2.7.1

下载文件，http://hadoop.apache.org/releases.html，选择 2.7.1 的binary 格式下载。文件名为：hadoop-2.7.1.tar.gz。
我们选择将 Hadoop 安装至 /usr/local/

sudo tar -zxvf /home/linuxidc/ 桌面 /hadoop-2.7.1.tar.gz -C /usr/local
cd /usr/local/
sudo mv ./hadoop-2.7.1/ ./hadoop # 将文件夹名改为 hadoop
sudo chown -R linuxidc ./hadoop # 修改文件权限
测试安装是否成功，如果出现命令帮助表示成功：/usr/local/hadoop/bin/hadoop

配置环境变量

nano ~/.bashrc
打开界面后，在之前配置的JAVA_HOME 后面输入：

export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL

使设置立即生效：source ~/.bashrc
检查是否安装成功，执行命令，如果出现命令帮助表示成功：hdfs

5、配置伪分布式

切换至配置文件目录：cd /usr/local/hadoop/etc/hadoop
配置 core-site.xml，执行命令：nano core-site.xml。将文件中的 <configuration></configuration> 替换为：

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

配置 hdfs-site.xml，执行命令：nano hdfs-site.xml，修改为：

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

关于 Hadoop 配置项的一点说明：

虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。

配置 yarn-site.xml，执行命令：nano yarn-site.xml，修改为：

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

配置 mapred-site.xml

从模板文件复制一个 xml，执行命令：mv mapred-site.xml.template mapred-site.xml
执行命令：nano mapred-site.xml
将文件修改为

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

配置完成后，执行格式化：hdfs namenode -format。倒数第五行出现 Exitting with status 0 表示成功，若为 Exitting with status 1 则是出错。
启动 hadoop 所有的进程：
start-all.sh
查看各个进程是否正常启动，执行：jps。如果一切正常，将看到下列结果：