共计 1669 个字符,预计需要花费 5 分钟才能阅读完成。
关于防火墙,Hadoop 本身配置都确定没任何问题,集群启动不报错,但打开 50070 页面,始终 live nodes 数目不对,于是我尝试 /etc/hosts 文件配置是否存在逻辑的错误:
127.0.0.1 localhost
192.168.1.233 localhost
# Hadoop
192.168.1.233 Ubuntu-233
192.168.1.234 ubuntu-234
192.168.1.235 ubuntu-235
192.168.1.236 ubuntu-236
上面是 Master 节点的 hosts 文件配置,233 为 master,234、235、236 为 slave 节点。
三个 slave 节点的 hosts 文件和上面一样,但都没有【192.168.1.23X localhost】那条记录。
当我在 master 节点 hosts 文件中删除【192.168.1.233 localhost】这条记录时,集群启动一切正常,并且能正确识别三个节点,正常上传下载文件。
仔细分析上面的 hosts 文件,有个逻辑的问题:
【192.168.1.233 localhost】
【192.168.1.233 ubuntu-233】
这两条记录同时配置在 master 节点的 hosts 文件中存在逻辑的冲突,
为了做实验,我交换了上面两条记录,于是此时 master 节点的 hosts 文件为:
127.0.0.1 localhost
#192.168.1.233 localhost
# Hadoop
192.168.1.233 ubuntu-233
192.168.1.234 ubuntu-234
192.168.1.235 ubuntu-235
192.168.1.236 ubuntu-236
192.168.1.233 localhost
发现启动 hadoop 集群一切正常。
问题确定是这两条记录引起的:
【192.168.1.233 localhost】
【192.168.1.233 ubuntu-233】
一个 ip 对应两个名字,Linux 系统应该只采纳排序靠头的记录,当之后有同 ip 的记录时,估计会抛弃。
于是 hadoop 集群的 master 节点只知道:【192.168.1.233 localhost】
我这推测,当 hadoop 的内部机制会把【192.168.1.233 localhost】的映射发送到各个 slave 节点,最后造成一个回环,每个节点获得 namenode 的信息都是 localhost 名字,而具体到各个机器,localhost
反向映射到自己,最后造成集群中一个死路回环。
具体 hadoop 的内部机制是否如上推测,有待于进一步跟源码。但这或许是一个 hadoop 的小 bug。
最后建议:/etc/hosts 文件,一个 ip 只对应一个有效的机器名字,避免逻辑冗余与回环。
相关阅读 :
Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm
Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm
Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm
Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm
单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm
搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13