共计 2015 个字符,预计需要花费 6 分钟才能阅读完成。
参考刘鹏的《实战 Hadoop》一书,按照 hadoop 0.20.2 几个注意的地方。
实战 Hadoop:开启通向云计算的捷径 PDF 高清扫描版 下载 http://www.linuxidc.com/Linux/2013-05/85132.htm
第一,首先理解 Hadoop 中的几个后台进程。
NameNode,Secondary NameNode,JobTracker,TaskTracker,DataNode 这几个角色。
NameNode:负责如何切分数据块,和切完放哪个节点。它对内存和 I / O 集中管理。
这个进程部署在 Master 节点上,是一个单点,它挂了整个系统都挂了。
Secondary NameNode:和 NameNode 一样,辅助程序。每个集群都有一个,它与 NameNode 进行通讯,定期保存 HDFS 元数据快照,当 NameNode 故障可以作为备用 NameNode 使用。它也是部署在 Master 节点上。
JobTracker 负责调度作业,它决定哪些文件由哪些节点运行,并且监听 TaskTracker 发送来的心跳。当收不到心跳,即认为某个 task 失败,就会决定重启 task。每个集群只有一个 JobTracker。它是部署在 Master 节点上的。
上述三个进程都是部署在 Master 节点上的,而 TaskTracker 和 DataNode 进程进程是集群中各个几点都需要部署的。
DataNode 负责将 HDFS 数据块读写到本地文件系统。当客户端读写某个数据库的时候,由 NameNode 告诉客户端去那个 DataNode 进行,然后客户端直接与这个 DataNode 的服务器通信,并操作相关的数据块。
TaskTracker 也是位于从节点的,它负责独立执行具体的 Task,每个从节点只能有一个 TaskTracker,但是每个 TaskTracker 可以产生多个 Java 虚拟机,用于并行处理多个 map 和 reduce 认为。TaskTracker 还会和 JobTracker 交互,JobTasker 负责分配 Task,并且检测 TaskTracker 的心跳,如果没有心跳,就认为已经崩溃,并将认为分配给其他的 TaskTracker。
各个进程的部署图如下:
具体的安装环节,可以参考书中的步骤,但是有几个点需要注意。
主机和从机统一创建专门的运行 hadoop 的用户 grid, 设置 SSH 的免密码登陆机制,可以参考 http://www.linuxidc.com/Linux/2015-05/116908.htm。将所有的机器上的公钥文件上里的内容,都统一整合到一个 authorized_keys 文件,以此实现互相免密码登陆 ssh。
启动 hadoop 的时候,注意要以 grid 用户登录,在 grid 用户的主目录下进行操作,有时权限的问题,此时要注意将主机和从机的 hadoop 文件夹的 owner 设置为 grid 用户和组。执行 chown -R grid:grid /home/grid/hadoop-1.2.1(此处为 hadoop 的放置目录,这里要使用 root 用户修改)
然后可以到 hadoop 的文件夹中的 bin 目录下启动 start-all.sh,可以看到如下的信息,说明启动成功。
此时还可以通过运行命令查看进程的启动情况,在主机上运行 jdk 中的 jps 文件,可以看到如下:
在从节点运行相同的命令,可以看到
至此,说明安装 Hadoop 已经成功了。
Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程 http://www.linuxidc.com/Linux/2015-02/113487.htm
CentOS 安装和配置 Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-01/94685.htm
Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm
Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm
Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm
Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm
单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm
更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13
本文永久更新链接地址 :http://www.linuxidc.com/Linux/2015-05/116909.htm