共计 1636 个字符,预计需要花费 5 分钟才能阅读完成。
Hadoop 配置文件详解
1、core-site.xml 文件
这是一个描述集群中 NameNode 结点的 URI- 统一资源标识符(包括协议,主机名称,端口号),集群里面的每一台机器都需要知道 NameNode 的地址。DataNode 结点会先在 NameNode 上注册,这样它们的数据才可以被利用。独立的客户端程序通过这个 URI 跟 DateNode 交互,以取得文件的块列表。
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
hadoop.tmp.dir 是 hadoop 文件系统依赖的基础配置,很多路径都依赖它。如果 hdfs-site-xml 中不配置 namenode 和 datanode 的存放位置,默认就放在这个路径下
2、hdfs-site-xml 文件
dfs.replication, 它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为 3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hdfs/tmp</value>
</property>
dfs.data.dir 这是 DataNode 结点被指定存储数据的本地文件系统路径。DataNode 结点上的这个路径没必要完全相同。因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,工作会变得简单一些。默认情况下,它的值是 Hadoop.temp.dir, 这个路径只能用于测试的目的,因为,他很可能会丢失掉一些数据,所以,这个值最好还是被覆盖。
dfs.name.dir 这是 NameNode 结点存储 Hadoop 文件信息的本地系统路径。这个值只对 NameNode 有效,DataNode 并不需要使用它。上面对于 /tmp 的警告同样使用于这里。在实际应用中,它最好被覆盖掉。
<property>
<name>dfs.name.dir</name>
<value>/home/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hdfs/data</value>
</property>
CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm
Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm
Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm
Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm
Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm
单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm
搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13