Hadoop2.6集群环境搭建（伪分布式）

305次阅读

没有评论

共计 4284 个字符，预计需要花费 11 分钟才能阅读完成。

以前安装过 Hadoop 几个版本的单机版，主要是为了研究 Hadoop 源代码，现在想更加深入 Hadoop 整个生态系统，选择安装 Hadoop 完全分布式，由于目前 Hadoop 最新版本为 2.6，于是选择这个版本安装使用

准备工作：

1、笔记本 4G 内存，操作系统 WIN7（纯屌丝配置）

2、工具：VMware Workstation

3、虚拟机：CentOS6.5（64 位）共 3 台，一个 master，两个 slave，

安装好一个主机 master 的 CentOS 系统，

1.1 修改主机名

# vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=master
NTPSERVERARGS=iburst

1.2 修改主机名和 IP 的映射关系（hosts）

# vim /etc/hosts

添加：192.168.111.131 master

1.3 关闭防火墙

# service iptables status // 查看防火墙的状态

# service iptables stop // 关闭防火墙

# chkconfig iptables –list // 查看防火墙开机启动状态

# chkconfig iptables off // 关闭防火墙开机启动

1.4 重启系统

#reboot

1、下载 jdk，地址：http://www.Oracle.com/technetwork/Java/javase/downloads/jdk7-downloads-1880260.html

2、上传到虚拟机

3、解压 jdk

#mkdir opt

#tar -zxvf jdk-7u79-linux-x64.tar.gz

4、将 java 添加到环境变量中

#vim /etc/profile

// 在文件的最后添加

export JAVA_HOME=/home/master/opt/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin

# source /etc/profile

# java -version

$ ssh-keygen -t rsa (四个回车)

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ ~/.ssh/authorized_keys // 查看 rsa

首先将 hadoop 解压缩到 opt 文件夹

4.1 配置 hadoop

4.1.1 配置 hadoop-env.sh

将 JAVA_HOME 修改为刚才配置的位置
export JAVA_HOME=/home/master/opt/jdk1.7.0_79

4.1.2 配置 core-site.xml

添加下面的内容:

 <configuration>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    </property>
     <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/master/opt/hadoop-2.6.0/tmp</value>
    </property>
    <property>
    <name>io.file.buffer.size</name>
    <value>4096</value>
    </property>
</configuration>

4.1.3 配置 hdfs-site.xml

添加下面的内容:

 <configuration>
  <property>
      <name>dfs.replication</name>
      <value>2</value>
  </property>
  <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:///home/master/opt/hadoop-2.6.0/dfs/name</value>
  </property>
  <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:///home/master/opt/hadoop-2.6.0/dfs/data</value>
  </property>
  <property>
      <name>dfs.nameservices</name>
      <value>h1</value>
  </property>
 
  <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>master:50090</value>
  </property>
  <property>
      <name>dfs.webhdfs.enabled</name>
      <value>true</value>
  </property>
 
</configuration>

4.1.4 配置 mapred-site.xml

# cp mapred-site.xml.template mapred-site.xml

添加下面的内容:

 <configuration>
  <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
     <final>true</final>
  </property>
  <property>
     <name>mapreduce.jobtracker.http.address</name>
     <value>master:50030</value>
  </property>
  <property>
     <name>mapreduce.jobhistory.address</name>
     <value>master:10020</value>
  </property>
  <property>
     <name>mapreduce.jobhistory.webapp.address</name>
     <value>master:19888</value>
  </property>
  <property>
     <name>mapred.job.tracker</name>
     <value>http://master:9001</value>
  </property>
</configuration>

4.1.5 配置 yarn-site.xml

添加下面的内容:

 <configuration>
<!-- Site specific YARN configuration properties -->
  <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>master</value>
  </property>
  <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
  </property>
  <property>
     <name>yarn.resourcemanager.address</name>
     <value>master:8032</value>
  </property>
  <property>
     <name>yarn.resourcemanager.scheduler.address</name>
     <value>master:8030</value>
  </property>
  <property>
     <name>yarn.resourcemanager.resource-tracker.address</name>
     <value>master:8031</value>
  </property>
  <property>
     <name>yarn.resourcemanager.admin.address</name>
     <value>master:8033</value>
  </property>
  <property>
     <name>yarn.resourcemanager.webapp.address</name>
     <value>master:8088</value>
  </property>
</configuration>

4.2 将 hadoop 添加到环境变量

export HADOOP_HOME=/home/master/opt/hadoop-2.6.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# source /etc/profile

4.3 格式化 namenode

# hdfs namenode -format

4.4 启动 hadoop

先启动 HDFS：

# sbin/start-dfs.sh

再启动 YARN

# sbin/start-yarn.sh

4.4 验证是否启动成功

# jps

2871 ResourceManager
3000 Jps
2554 NameNode
2964 NodeManager
2669 DataNode

至此伪分布式 hadoop 搭建完成！

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址 ：http://www.linuxidc.com/Linux/2015-05/117249.htm

正文完

星哥玩云-微信公众号

发表至：服务器应用

2022-01-20

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Nginx networking 403 Forbidden 静态文件不允许查看

Linux负载均衡软件LVS

Nginx+php-fpm+MySQL分离部署详解

Nexus配置实践

登录Tomcat管理页面配置实例

Nginx配置文件（nginx.conf）配置详解

Apache检查httpd.conf的语法错误的方法

正式生产环境下Hadoop集群的DNS+NFS+SSH免密码登陆配置

在Eclipse中进行HotSpot的源码调试

Hadoop2.6集群环境搭建（伪分布式）

1、系统环境设置（先配置 master 节点）

2. 安装 jdk

3. 配置 ssh 免登录

4. 安装 hadoop2.6.0

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

自建私有云相册：Docker一键部署Immich，照片视频备份利器

如何安装官方ChatGPT桌面软件，支持Windows和MacOS系统

使用Linux容器迅速搭建渗透测试环境（上篇）

UNIX 下奇怪的事情

腾讯云2024双11优惠活动，云服务器28元1年起，先领代金券！

列举一下你可能没注意的Linux命令

Linux top 命令快速入门

神奇的Make 如何工作的

	<configuration>
	<property>
	<name>fs.defaultFS</name>
	<value>hdfs://master:9000</value>
	</property>
	<property>
	<name>hadoop.tmp.dir</name>
	<value>/home/master/opt/hadoop-2.6.0/tmp</value>
	</property>
	<property>
	<name>io.file.buffer.size</name>
	<value>4096</value>
	</property>
	</configuration>

	<configuration>
	<property>
	<name>dfs.replication</name>
	<value>2</value>
	</property>
	<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:///home/master/opt/hadoop-2.6.0/dfs/name</value>
	</property>
	<property>
	<name>dfs.datanode.data.dir</name>
	<value>file:///home/master/opt/hadoop-2.6.0/dfs/data</value>
	</property>
	<property>
	<name>dfs.nameservices</name>
	<value>h1</value>
	</property>

	<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>master:50090</value>
	</property>
	<property>
	<name>dfs.webhdfs.enabled</name>
	<value>true</value>
	</property>

	</configuration>

	<configuration>
	<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
	<final>true</final>
	</property>
	<property>
	<name>mapreduce.jobtracker.http.address</name>
	<value>master:50030</value>
	</property>
	<property>
	<name>mapreduce.jobhistory.address</name>
	<value>master:10020</value>
	</property>
	<property>
	<name>mapreduce.jobhistory.webapp.address</name>
	<value>master:19888</value>
	</property>
	<property>
	<name>mapred.job.tracker</name>
	<value>http://master:9001</value>
	</property>
	</configuration>

	<configuration>
	<!-- Site specific YARN configuration properties -->
	<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>master</value>
	</property>
	<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
	</property>
	<property>
	<name>yarn.resourcemanager.address</name>
	<value>master:8032</value>
	</property>
	<property>
	<name>yarn.resourcemanager.scheduler.address</name>
	<value>master:8030</value>
	</property>
	<property>
	<name>yarn.resourcemanager.resource-tracker.address</name>
	<value>master:8031</value>
	</property>
	<property>
	<name>yarn.resourcemanager.admin.address</name>
	<value>master:8033</value>
	</property>
	<property>
	<name>yarn.resourcemanager.webapp.address</name>
	<value>master:8088</value>
	</property>
	</configuration>