共计 2829 个字符,预计需要花费 8 分钟才能阅读完成。
Hadoop 是获取大数据的应用程序。在这篇文章中,我们将安装一个用于伪分布式操作的 Hadoop 单节点集群。我们将使用 YARN 运行 mapreduce。
必要条件
对于本文,我创建了一个具有 8GB 内存的 VM 和 4 个 vcpu,使用的是 Ubuntu Server 17.10 ISO,其中有 60gb 的驱动器空间。请记住,这是在此配置下测试我们 Hadoop 的最低限度。我们最后运行的例子需要一些时间来运行。这个设置是如果你是 Hadoop 的新手,并且想尝试运行它。在稍后的文章中,我们将介绍并配置一个更强大的集群,它将会有更好的性能和功能。
安装所需的软件
更新您的系统并重新启动,以便我们开始尝试。
# apt update && apt upgrade -y
# reboot
由于 Hadoop 基于 Java,我们将需要在我们的服务器上安装 Java 8。
# apt install -y openjdk-8-jdk
为了确保 Hadoop 附带的脚本正常工作,确保安装了 ssh 和 pdsh。
# apt install ssh pdsh -y
现在我们可以开始配置 Hadoop 了。
下载 Hadoop
在撰写本文时,Hadoop 的最新稳定版本是 2.8.2,因此我们将下载该版本。
# wget http://apache.cs.utah.edu/hadoop/common/stable/hadoop-2.8.2.tar.gz
# tar -xzvf hadoop-2.8.2.tar.gz
# cd hadoop-2.8.2/
我们需要对我们的配置做一些补充,所以用适当的内容编辑下面几个文件:
etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr
etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
现在为了使脚本正常工作,我们需要设置无密码的 SSH 登录 localhost:
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
格式化 HDFS 文件系统。
# bin/hdfs namenode -format
最后,启动 HDFS。
# sbin/start-dfs.sh
启动后,您可以通过以下 URL 访问 NameNode 的 Web 界面:http://{server-ip}:50070。
配置 YARN
创建 YARN 需要的目录。
# bin/hdfs dfs -mkdir /user
# bin/hdfs dfs -mkdir /user/root
编辑 etc/hadoop/mapred-site.xml 并添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
很编辑 etc/hadoop/yarn-site.xml:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
启动 YARN:
# sbin/start-yarn.sh
您现在可以查看网页界面 http://{server-ip}:8088.
测试我们的安装
为了测试所有的工作 ,我们可以使用 YARN 运行 MapReduce job:
# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar pi 16 1000
这将使用 quasiMonteCarlo 方法来计算 PI 到小数点后 16 位。一两分钟后,你应该得到你的回应:
Job Finished in 96.095 seconds
Estimated value of Pi is 3.14250000000000000000
这应该足以让您开始您的 Hadoop 旅程。我希望你喜欢这篇文章,如果对您有帮助,或者如果有问题,请发表评论并告诉我。
Hadoop 项目之基于 CentOS7 的 Cloudera 5.10.1(CDH)的安装部署 http://www.linuxidc.com/Linux/2017-04/143095.htm
Hadoop2.7.2 集群搭建详解(高可用)http://www.linuxidc.com/Linux/2017-03/142052.htm
使用 Ambari 来部署 Hadoop 集群(搭建内网 HDP 源)http://www.linuxidc.com/Linux/2017-03/142136.htm
Ubuntu 14.04 下 Hadoop 集群安装 http://www.linuxidc.com/Linux/2017-02/140783.htm
CentOS 6.7 安装 Hadoop 2.7.2 http://www.linuxidc.com/Linux/2017-08/146232.htm
Ubuntu 16.04 上构建分布式 Hadoop-2.7.3 集群 http://www.linuxidc.com/Linux/2017-07/145503.htm
CentOS 7.3 下 Hadoop2.8 分布式集群安装与测试 http://www.linuxidc.com/Linux/2017-09/146864.htm
CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 http://www.linuxidc.com/Linux/2017-06/144932.htm
Hadoop2.7.3+Spark2.1.0 完全分布式集群搭建过程 http://www.linuxidc.com/Linux/2017-06/144926.htm
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13
本文永久更新链接地址 :http://www.linuxidc.com/Linux/2017-12/149852.htm