阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop集群中的Mahout-distribution-0.7安装与配置

200次阅读
没有评论

共计 2077 个字符,预计需要花费 6 分钟才能阅读完成。

Hadoop 集群中的 Mahout-distribution-0.7 安装与配置

系统配置:

Ubuntu 12.04

hadoop-1.1.2

jdk1.6.0_45

Mahout 是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Mahout 只在 Hadoop 集群的 NameNode 节点上安装一个即可,其他数据节点上不需要安装。

1、下载二进制解压安装。

到 http://labs.renren.com/apache-mirror/mahout/0.7 下载,我选择下载二进制包,直接解压及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz

2、配置环境变量:/etc/profile

Hadoop 集群中的 Mahout-distribution-0.7 安装与配置

使环境变量生效:source  /etc/profile

3、启动 hadoop

4、mahout –help

检查 Mahout 是否安装完好,看是否列出了一些算法

      当然,这种方法并不准确,可以通过接下来的步骤进行验证。

5、mahout 使用准备

a. 下载一个文件 synthetic_control.data,下载地址:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

b. 创建测试目录 testdata,并把数据导入到这个 tastdata 目录中 (这里的目录的名字只能是 testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir testdata

hadoop@ubuntu:~/$ hadoop fs -put /usr/local/mahout-distribution-0.7/synthetic_control.data testdatac. 使用 kmeans 算法

hadoop@ubuntu:~/$ hadoop jar /usr/local/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

6. 查看结果

hadoop@ubuntu:~/$ hadoop fs -lsr output 如果看到以下结果那么算法运行成功,你的安装也就成功了。

clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data

这是在 my-eclipse 下的目录树:

Hadoop 集群中的 Mahout-distribution-0.7 安装与配置

注:

clusteredPoints:存放的是最后聚类的结果,将 cluster-id 和 documents-id 都展示出来了,用 mahout seqdumper 读 clusteredPoints 结果的 key-value 类型是 (IntWritable,WeightedVectorWritable)

clusters-N:是第 N 次聚类的结果,其中 n 为某类的样本数目,c 为各类各属性的中心,r 为各类属性的半径。clusters- N 结果类型是 (Text,Cluster)

data:存放的是原始数据,这个文件夹下的文件可以用 mahout vectordump 来读取,原始数据是向量形式的,其它的都只能用 mahout seqdumper 来读取,向量文件也可以用 mahout seqdumper 来读取,只是用 vectordump 读取出来的是数字结果,没有对应的 key,用 seqdumper 读出来的可以看到 key,即对应的 url,而 value 读出来的是一个类描述,而不是数组向量

7、分析结果

Hadoop 集群中的 Mahout-distribution-0.7 安装与配置

相关阅读

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建 Hadoop 环境(在 Winodws 环境下用虚拟机虚拟两个 Ubuntu 系统进行搭建)http://www.linuxidc.com/Linux/2011-12/48894.htm

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2077字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中