Eclipse执行Hadoop WordCount

177次阅读

共计 3503 个字符，预计需要花费 9 分钟才能阅读完成。

前期工作

我的 Eclipse 是安装在 Windows 下的，通过 Eclipse 执行程序连接 Hadoop，需要让虚拟机的访问地址和本机的访问地址保持在同一域内，虚拟机的地址更改前面的文章介绍过了，如果想改 windows 本机 ip 地址，打开“网络和共享中心“，点击左侧菜单”更改适配器设置“，选择相应连接网络进行 IpV4 属性地址修改即可。我虚拟机地址为 192.168.3.137

准备工作

地址配置好之后，在 Eclipse 上要安装 Hadoop 的插件（你可以参考源码自行修改）。

打开 Eclipse 安装路径 —\eclipse\plugins，把 hadoop-eclipse-plugin-1.1.2.jar 放到这个目录下。

windows 本机新建目录（本人在 E:\hadoopMapReduceDir），从 Linux 的 Hadoop 安装包内复制所有 jar 放到这个目录下备用。

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境（单机模式 + 伪分布模式）http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境（在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建）http://www.linuxidc.com/Linux/2011-12/48894.htm

配置工作

打开 Eclipse，在菜单栏点击 Window，showView 选择 Other 打开选择显示的窗口，如下

在 MapReduceTools 目录下找到这只大象，将它拖到 Eclipse 底部显示（和 Console 放一块）

点击大象，在下边空白区右击选择 New Hadooplocation(见下图)

打开新建配置窗口，设置连接信息，下图是本机的连接配置名称自己填写，两个端口和 username 按图填写（Hadoop 默认的端口）

点击 Eclipse 菜单栏 Window —》Preference，找到 HadoopMap/Reduce，点击之后在右侧选择导入 Hadoop jar 的路径，这样以后新建 Hadoop 项目，jar 包会自动从该路径加载，路径上面已设，添加进来如图：

创建项目

点击 File—》other，打开新建对话框，创建 Map/ReduceProject 项目 NewHadoopTest

创建完成后你会看到 jar 包自动加载到项目之中

拷贝 Linux 下 Hadoop 的 src 目录下的 example java 项目到刚刚创建的工程下 src 下，

Eclipse 执行 Hadoop WordCount 里面就有 WordCount.java

Linux 下启动 Hadoop（用 JPS 检查是否已启动），在 Eclipse 连接，连接成功后 Hadoop 目录就会显示如下

更多详情见请继续阅读下一页的精彩内容：http://www.linuxidc.com/Linux/2014-09/106518p2.htm

修改代码

现在设置方面基本完成，接下来就是针对 WordCount.java 所做的修改和 HDFS 路径配置

打开 WordCount.java(可能会报错),

将 main 方法更改如下：

如果 GenericOptionsParser 报错，将 Hadoop-core-1.1.2.jar 加到项目中（或放到 jar 配置路径）。

新建 a.txt 文件，输入下面内容，保存

在 hadoopname 下 user—》hadoop 目录创建 input 文件夹，将文件 a.txt 上传到 HDFS input 上，过程如下（不要创建 output 目录，不然执行会报错，）

如果 HDFS 已有，可 Linux 使用命令 hadoop fs -rmr /output 删除）

在选择 Wordcount.java，右击 run as —》run configurations，打开 Arguments 填写 input out 路径(注意：input 和 output 路径中间是有空格的)，这里我设置查询 input 下所有文件的单词出现次数。

右击 WordCount.java,run as -àrun on hadoop 执行

执行结束后，刷新 DFS Locations/ use/hadoop

自动生成 output 文件夹，点击可以看到执行结果。最终结果存放在 part-r-00000 中，双击查看即可

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13