阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Nutch1.7学习笔记:基本环境搭建及使用

209次阅读
没有评论

共计 4562 个字符,预计需要花费 12 分钟才能阅读完成。

说明:Nutch 有两个主版本 1.x 和 2.x,它们的主要区别是 2.x 引入了 Gora 作为存储抽象层,从而支持各种 NoSQL 数据库,如 HBase,Cassandra 等。本文是以 1.x 的最新版 Nutch1.7 (发布于 2013 年 6 月 25 日) 为例。

环境准备:

一台 Ubuntu Linux 服务器,可以装在 VMware 虚拟机中。
下载 Nutch1.7 版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载 1.7 目录下的 apache-nutch-1.7-bin.zip.
下载 Solr3.6 版本的二进制包,地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/,选择一个站点进入后,下载 3.6.2 目录下的 apache-solr-3.6.2.zip .
安装配置 Nutch:

将 apache-solr-3.6.2.zip 解压,然后执行如下命令:

$mv apache-nutch-1.7nutch

$cd nutch

$bin/nutch

上面两行命令是进入解压后的目录,然后执行 nutch 命令。如果出现”Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看 bin/nutch 是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

2. 配置 JAVA_HOME 环境变量

执行”echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:

$cd

$vi .bashrc

然后将如下文本加入到.bashrc 的末尾,注意:需将 JAVA_HOME 的值替换为你的 Javajdk 的路径。如果没有安装 JDK,建议安装 OracleJDK.

export JAVA_HOME=/home/dennis/jdk1.6.0_37

然后执行如下命令刷新当前的环境变量:

$. .bashrc

3. 配置 Nutch

(1)配置 conf/nutch-default.xml

$cd nutch

$ vi conf/nutch-default.xml

将 http.agent.name 属性的值改为如下:

<property>

 <name>http.agent.name</name>

 <value>My Nutch Spider</value>

</property>

 (2) 创建 urls 相关配置:

$ mkdir urls

$cd urls

$ touch seed.txt

然后将你希望爬的网址放入 seed.txt 中,这里以”http://nutch.apache.org”为例。

(3) 编辑 conf/regex-urlfilter.txt 将原有的

# accept anything else

+.

替换为你以正则表达式匹配的你希望爬的地址。例如:

+^http://([a-z0-9]*\.)*nutch.apache.org/

这是用正则表达式来限制爬虫的范围仅限于 nutch.apache.org 这个域。

 

运行 Nutch:

$ bin/nutch crawl urls -dir crawl -depth 3 -topN5

运行上述命令执行爬虫。

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2013-11/92891p2.htm

Nutch 的详细介绍 :请点这里
Nutch 的下载地址 :请点这里

相关阅读

Nutch2.0 完全分布式部署配置 http://www.linuxidc.com/Linux/2012-10/71977.htm

Nutch-2.0 集群配置 http://www.linuxidc.com/Linux/2012-10/71976.htm

与 Solr 集成

1. 安装:将 apache-solr-3.6.2.zip 解压,然后执行如下命令:

$mv apache-solr-3.6.2 solr

$cd solr/example

$ java -jar start.jar

2. 验证:分别访问如下两个链接,需都能正常访问才可。

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

3. 与 Nutch 集成:

(1) 拷贝 schema.xml 配置文件

将 nutch/conf/schema-solr.xml 拷贝至 solr/example/solr/conf/ 下,并重命名为 schema.xml(覆盖原有的)。

(2) 执行”java -jar start.jar”重启 Solr,需先进入 solr/example 目录。

(3) 执行 Solr 索引命令,如下:

bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

注意:执行时需先进入 nutch 目录。

(4) 访问 http://192.168.128.129:8983/solr/admin/ 测试,可以在 Query String 中输入”GettingStarted”进行查询,可以得到两个结果。

 

还可以集成中文分词,以便更好地支持中文。

集成中文分词相关配置如下:

 

schema.xml

<fieldType name=”text”class=”solr.TextField”>

              <analyzer class=”org.wltea.analyzer.lucene.IKAnalyzer”/>

      </fieldType>

 

solrconfig.xml

<lib dir=”../../contrib/ik/lib”regex=”.*\.jar” />

同时需下载对应的 jar 包放至相应的目录。

Solr 的详细介绍 :请点这里
Solr 的下载地址 :请点这里

相关阅读:

Solr3.6.1 在 Tomcat6 下的环境搭建 http://www.linuxidc.com/Linux/2013-01/77664.htm

基于 Tomcat 的 Solr3.5 集群部署 http://www.linuxidc.com/Linux/2012-12/75297.htm

在 Linux 上使用 Nginx 为 Solr 集群做负载均衡 http://www.linuxidc.com/Linux/2012-12/75257.htm

Linux 下安装使用 Solr http://www.linuxidc.com/Linux/2012-10/72029.htm

在 Ubuntu 12.04 LTS 上通过 Tomcat 部署 Solr 4 http://www.linuxidc.com/Linux/2012-09/71158.htm

Solr 实现 Low Level 查询解析(QParser)http://www.linuxidc.com/Linux/2012-05/59755.htm

基于 Solr 3.5 搭建搜索服务器 http://www.linuxidc.com/Linux/2012-05/59743.htm

Solr 3.5 开发应用教程 PDF 高清版 http://www.linuxidc.com/Linux/2013-10/91048.htm

Solr 4.0 部署实例教程 http://www.linuxidc.com/Linux/2013-10/91041.htm

说明:Nutch 有两个主版本 1.x 和 2.x,它们的主要区别是 2.x 引入了 Gora 作为存储抽象层,从而支持各种 NoSQL 数据库,如 HBase,Cassandra 等。本文是以 1.x 的最新版 Nutch1.7 (发布于 2013 年 6 月 25 日) 为例。

环境准备:

一台 Ubuntu Linux 服务器,可以装在 VMware 虚拟机中。
下载 Nutch1.7 版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载 1.7 目录下的 apache-nutch-1.7-bin.zip.
下载 Solr3.6 版本的二进制包,地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/,选择一个站点进入后,下载 3.6.2 目录下的 apache-solr-3.6.2.zip .
安装配置 Nutch:

将 apache-solr-3.6.2.zip 解压,然后执行如下命令:

$mv apache-nutch-1.7nutch

$cd nutch

$bin/nutch

上面两行命令是进入解压后的目录,然后执行 nutch 命令。如果出现”Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看 bin/nutch 是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

2. 配置 JAVA_HOME 环境变量

执行”echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:

$cd

$vi .bashrc

然后将如下文本加入到.bashrc 的末尾,注意:需将 JAVA_HOME 的值替换为你的 Javajdk 的路径。如果没有安装 JDK,建议安装 OracleJDK.

export JAVA_HOME=/home/dennis/jdk1.6.0_37

然后执行如下命令刷新当前的环境变量:

$. .bashrc

3. 配置 Nutch

(1)配置 conf/nutch-default.xml

$cd nutch

$ vi conf/nutch-default.xml

将 http.agent.name 属性的值改为如下:

<property>

 <name>http.agent.name</name>

 <value>My Nutch Spider</value>

</property>

 (2) 创建 urls 相关配置:

$ mkdir urls

$cd urls

$ touch seed.txt

然后将你希望爬的网址放入 seed.txt 中,这里以”http://nutch.apache.org”为例。

(3) 编辑 conf/regex-urlfilter.txt 将原有的

# accept anything else

+.

替换为你以正则表达式匹配的你希望爬的地址。例如:

+^http://([a-z0-9]*\.)*nutch.apache.org/

这是用正则表达式来限制爬虫的范围仅限于 nutch.apache.org 这个域。

 

运行 Nutch:

$ bin/nutch crawl urls -dir crawl -depth 3 -topN5

运行上述命令执行爬虫。

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2013-11/92891p2.htm

Nutch 的详细介绍 :请点这里
Nutch 的下载地址 :请点这里

相关阅读

Nutch2.0 完全分布式部署配置 http://www.linuxidc.com/Linux/2012-10/71977.htm

Nutch-2.0 集群配置 http://www.linuxidc.com/Linux/2012-10/71976.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计4562字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中