Hadoop集群管理之SecondaryNameNode与NameNode

226次阅读

共计 3821 个字符，预计需要花费 10 分钟才能阅读完成。

光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是 NameNode（nn）的热备进程。其实不是。snn 是 HDFS 架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存 namenode 中对 HDFS metadata 的信息的备份，并减少 namenode 重启的时间。对于 Hadoop 进程中，要配置好并正确的使用 snn，还是需要做一些工作的。hadoop 的默认配置中让 snn 进程默认运行在了 namenode 的那台机器上，但是这样的话，如果这台机器出错，宕机，对恢复 HDFS 文件系统是很大的灾难，更好的方式是：将 snn 的进程配置在另外一台机器上运行。

在 hadoop 中，namenode 负责对 HDFS 的 metadata 的持久化存储，并且处理来自客户端的对 HDFS 的各种操作的交互反馈。为了保证交互速度，HDFS 文件系统的 metadata 是被 load 到 namenode 机器的内存中的，并且会将内存中的这些数据保存到磁盘进行持久化存储。为了保证这个持久化过程不会成为 HDFS 操作的瓶颈，hadoop 采取的方式是：没有对任何一次的当前文件系统的 snapshot 进行持久化，对 HDFS 最近一段时间的操作 list 会被保存到 namenode 中的一个叫 Editlog 的文件中去。当重启 namenode 时，除了 load fsImage 意外，还会对这个 EditLog 文件中记录的 HDFS 操作进行 replay，以恢复 HDFS 重启之前的最终状态。

而 SecondaryNameNode，会周期性的将 EditLog 中记录的对 HDFS 的操作合并到一个 checkpoint 中，然后清空 EditLog。所以 namenode 的重启就会 Load 最新的一个 checkpoint，并 replay EditLog 中记录的 hdfs 操作，由于 EditLog 中记录的是从上一次 checkpoint 以后到现在的操作列表，所以就会比较小。如果没有 snn 的这个周期性的合并过程，那么当每次重启 namenode 的时候，就会花费很长的时间。而这样周期性的合并就能减少重启的时间。同时也能保证 HDFS 系统的完整性。

这就是 SecondaryNameNode 所做的事情。所以 snn 并不能分担 namenode 上对 HDFS 交互性操作的压力。尽管如此，当 namenode 机器宕机或者 namenode 进程出问题时，namenode 的 daemon 进程可以通过人工的方式从 snn 上拷贝一份 metadata 来恢复 HDFS 文件系统。

可扩展性：创建一个新的 HDFS 的 snapshot 需要将 namenode 中 load 到内存的 metadata 信息全部拷贝一遍，这样的操作需要的内存就需要和 namenode 占用的内存一样，由于分配给 namenode 进程的内存其实是对 HDFS 文件系统的限制，如果分布式文件系统非常的大，那么 namenode 那台机器的内存就可能会被 namenode 进程全部占据。
容错性：当 snn 创建一个 checkpoint 的时候，它会将 checkpoint 拷贝成 metadata 的几个拷贝。将这个操作运行到另外一台机器，还可以提供分布式文件系统的容错性。

HDFS 的一次运行实例是通过在 namenode 机器上的 $HADOOP_HOME/bin/start-dfs.sh（或者 start-all.sh）脚本来启动的。这个脚本会在运行该脚本的机器上启动 namenode 进程，而 slaves 机器上都会启动 DataNode 进程，slave 机器的列表保存在 conf/slaves 文件中，一行一台机器。并且会在另外一台机器上启动一个 snn 进程，这台机器由 conf/masters 文件指定。所以，这里需要严格注意，conf/masters 文件中指定的机器，并不是说 jobtracker 或者 namenode 进程要运行在这台机器上，因为这些进程是运行在 launch bin/start-dfs.sh 或者 bin/start-mapred.sh(start-all.sh)的机器上的。所以，masters 这个文件名是非常的令人混淆的，应该叫做 secondaries 会比较合适。然后，通过以下步骤：