共计 1607 个字符,预计需要花费 5 分钟才能阅读完成。
Solr 是什么?
Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的 Java 来实现。服务 器通信使用标准的 HTTP 和 XML,所以如果使用 Solr 了解 Java 技术会有用却不是必须的要求。
Solr 主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和 电子文档(Word,PDF 等)的处理。而且 Solr 具有高度的可扩展,支持分布搜索和索引的复制。
用 MapReduce 构建 Solr 索引
本文在 markrmiller 的 repo 上做了一些改动,成功地在 Hadoop 上利用 MapReduce 创建了 Solr 的索引。
实验环境
- Ubuntu 16.04 的虚拟机一台(2GB 内存,1 核)
- 安装 JDK 7+
实验步骤
首先要能够免密登录 localhost:
sudo apt-get install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
现在 ssh localhost
就不再需要输入密码了。
接下来先安装一个在运行过程中要用到的软件 unzip:
sudo apt-get install unzip
然后从 github 下载源码到根目录,然后运行run-example.sh
:
git clone https://github.com/scuxiayiqian/solr-map-reduce-example.git
cd solr-map-reduce-example
bash run-example.sh
运行成功后程序就会启动一个 MapReduce 的任务对下载下来的 Twitter 数据建立索引,并上传到 Solr Cloud 上去。运行完成后我们可以通过 http://127.0.0.1:8983/solr
来查看结果。也可以通过 http://127.0.0.1:50075
和http://127.0.0.1:8042
分别访问 NameNode 和 Yarn。
更多 Solr 相关教程见以下内容:
Solr3.6.1 在 Tomcat6 下的环境搭建 http://www.linuxidc.com/Linux/2013-01/77664.htm
Apache Solr: 安装和运行 http://www.linuxidc.com/Linux/2016-12/138527.htm
在 Ubuntu 12.04 LTS 上通过 Tomcat 部署 Solr 4 http://www.linuxidc.com/Linux/2012-09/71158.htm
Solr 实现 Low Level 查询解析(QParser)http://www.linuxidc.com/Linux/2012-05/59755.htm
Solr6.0.0 + Tomcat8 配置问题 http://www.linuxidc.com/Linux/2016-05/131845.htm
基于 Solr 3.5 搭建搜索服务器 http://www.linuxidc.com/Linux/2012-05/59743.htm
Solr 3.5 开发应用教程 PDF 高清版 http://www.linuxidc.com/Linux/2013-10/91048.htm
Solr 4.0 部署实例教程 http://www.linuxidc.com/Linux/2013-10/91041.htm
Solr5.2.1+Zookeeper3.4.8 分布式集群搭建 http://www.linuxidc.com/Linux/2017-06/144927.htm
Solr5.5.4 单机版安装 http://www.linuxidc.com/Linux/2017-04/143044.htm
Solr 的详细介绍:请点这里
Solr 的下载地址:请点这里
本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-07/145507.htm