Solr创建索引源码解析

257次阅读

共计 16262 个字符，预计需要花费 41 分钟才能阅读完成。

查看了下 solr 生成索引的源码，特记下 (昨天写的，今天看了感觉非常乱，今天特意整理下)

先说下创建索引源码流程 ：

源码类：
1.CommonHttpSolrServer (SolrServer 的子类)
2.SolrServer（抽象类）
3.SolrRequest (基类)
4.AbstractUpdateRequest (抽象类、SolrRequest 的子类)
5.UpdateRequest (AbstractUpdateRequest 的子类)
6.SolrInputDocument（设置需要索引的名称和值、这个应该放在第一位）

创建索引代码：

查询数据库数据，或者其他文档数据进行索引

private void updateBook(String sql, String url, String idColumn,
String timeColumn,BufferedWriter dataFile) throws Exception {
long start = System.currentTimeMillis();
 SolrUtil solrUtil = new SolrUtil(url);// 初始化索引
SolrDocument doc = SqlSh.getSolrMaxDoc(solrUtil, idColumn, timeColumn);
if (doc == null) {
CommonLogger.getLogger().error(“solr no data.”);
return;
}
int maxId = Integer.parseInt(doc.get(idColumn).toString());
long maxTime = Long.parseLong(doc.get(timeColumn).toString())*1000;
Date maxDate = new Date(maxTime);

DateFormat dateFormat2 = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);
// 获取数据库需要索引的数据
ResultSet rs = stmt_m.executeQuery(String.format(sql,
dateFormat2.format(maxDate)));
// 获取需要创建索引的 key
initColumeMeta(rs.getMetaData());

// 解析数据并索引
parseRs(rs, solrUtil);

rs.close();

// 优化索引
solrUtil.server.optimize();

CommonLogger.getLogger().info(
“update book time:” + (System.currentTimeMillis() – start)
/ 1000 + “s”);
}

2. 咱们看下上面代码的 parseRs 方法：

// 下面是简单的解析数据方法并写索引

 private void parseRs(ResultSet rs, SolrUtil solrUtil) throws <SPAN></SPAN> Exception {Collection<SolrInputDocument> docs=new ArrayList<SolrInputDocument>();
		SolrInputDocument doc = null;
		int locBk = 0;
		boolean flag=true;
		StringBuilder sb=null;
		String vl=null;
		try {while (rs.next()) {doc = new SolrInputDocument();
				for (int i = 0; i < ToolMain.columnNames.length; i++) {
					doc.addField(ToolMain.columnNames[i],
						getColumnValue(rs.getObject(ToolMain.columnNames[i]),
							ToolMain.columnTypes[i]));// 此方法为设置一个域，可以添加一个参数来设置权重
				}
				docs.add(doc);
				locBk++;
				if (docs.size() >= 1000) {solrUtil.addDocList(docs);// 创建索引和提交索引操作都在这里面
					docs.clear();}
			}
			if (docs.size() > 0) {solrUtil.addDocList(docs);
				docs.clear();}
		} catch (Exception e) {throw e;} finally {docs.clear();
			docs = null;
		}
	}

更多详情见请继续阅读下一页的精彩内容 ：http://www.linuxidc.com/Linux/2013-11/92253p2.htm

Solr 的详细介绍 ：请点这里
Solr 的下载地址 ：请点这里

相关阅读：

Solr3.6.1 在 Tomcat6 下的环境搭建 http://www.linuxidc.com/Linux/2013-01/77664.htm

基于 Tomcat 的 Solr3.5 集群部署 http://www.linuxidc.com/Linux/2012-12/75297.htm

在 Linux 上使用 Nginx 为 Solr 集群做负载均衡 http://www.linuxidc.com/Linux/2012-12/75257.htm

Linux 下安装使用 Solr http://www.linuxidc.com/Linux/2012-10/72029.htm

在 Ubuntu 12.04 LTS 上通过 Tomcat 部署 Solr 4 http://www.linuxidc.com/Linux/2012-09/71158.htm

Solr 实现 Low Level 查询解析（QParser）http://www.linuxidc.com/Linux/2012-05/59755.htm

基于 Solr 3.5 搭建搜索服务器 http://www.linuxidc.com/Linux/2012-05/59743.htm

Solr 3.5 开发应用教程 PDF 高清版 http://www.linuxidc.com/Linux/2013-10/91048.htm

Solr 4.0 部署实例教程 http://www.linuxidc.com/Linux/2013-10/91041.htm

3. 下面来说明下 SolrUtil 类，此类主要是封装了 CommonHttpSolrServer

import Java.util.Collection;

import log.CommonLogger;

import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer;
import org.apache.solr.common.SolrInputDocument;

public class SolrUtil {
public CommonsHttpSolrServer server = null;

public String url = “”;//url 为 solr 服务的地址
public String shards = “”;

public SolrUtil(String url) {
this.url = url;
initSolr();
}
public SolrUtil(String url,String shards) {
this.url = url;
this.shards=shards;
initSolr();
}
       // 初始化 Server
private void initSolr() {
try {
server = new CommonsHttpSolrServer(url);
server.setSoTimeout(60*1000);
server.setConnectionTimeout(60*1000);
server.setDefaultMaxConnectionsPerHost(1000);
server.setMaxTotalConnections(1000);
server.setFollowRedirects(false);
server.setAllowCompression(true);
} catch (Exception e) {
e.printStackTrace();
System.exit(-1);
}
}
// 封装了 add、commit
public void addDocList(Collection<SolrInputDocument> docs) {
try {
server.add(docs);
server.commit();
docs.clear();// 释放
} catch (Exception e) {
CommonLogger.getLogger().error(“addDocList error.”, e);
}
}

public void deleteDocByQuery(String query) throws Exception {
try {
server.deleteByQuery(query);
server.commit();
} catch (Exception e) {
CommonLogger.getLogger().error(“deleteDocByQuery error.”, e);
throw e;
}
}
}

4. 现在来看看 solr 创建索引的源码

其实源码执行的操作无非是生成请求 request 返回 response

1. 上面代码中的 SolrInputDocument 类所做的操作

public class SolrInputDocument implements Map<String,SolrInputField>, Iterable<SolrInputField>, Serializable // 实现了 Map 和 Iterable 的接口并且实现了接口中的方法，其主要的类为 SolrInputFiled 类

public class SolrInputField implements Iterable<Object>, Serializable // 类中只有三个属性，String key，Object value，还包括评分 float boost = 1.0f; 默认是 1.0f（如果做权重的话可以设置这个值）

再来看下执行的 CommonHttpSolrServer 类所做的操作（表现形式在 SolrUtil 中的 addDocList）

2. 添加文档方法

public UpdateResponse add(Collection<SolrInputDocument> docs)                         throws SolrServerException, IOException {

UpdateRequest req = new UpdateRequest();// 创建一个 request

req.add(docs);// 调用 UpdateRequest 的 add 方法，添加索引文档
return req.process(this);// 亲重点是这个方法（返回的是 response）
}

// 再看下 UpdateRequest 的 add 方法
private List<SolrInputDocument> documents = null;
public UpdateRequest add(final Collection<SolrInputDocument> docs)
{
if(documents == null) {
documents = new ArrayList<SolrInputDocument>(docs.size()+1 );
}
documents.addAll(docs);
return this;
}
3. 提交方法 commit，调用的是 SolrServer 类中的

public UpdateResponse commit(boolean waitFlush, boolean waitSearcher) throws Solr ServerException, IOException {

return new UpdateRequest().setAction( UpdateRequest.ACTION.COMMIT, waitFlush, waitSearcher).process(this);// 看到了吗？

setAction 都是为了对对象 ModifiableSolrParams（这个对象在最终 CommonHttpSolrServerrequest 的 request 方法中用的到）

在提交索引的时候也是调用的 process 方法

}

查看了下 solr 生成索引的源码，特记下 (昨天写的，今天看了感觉非常乱，今天特意整理下)

先说下创建索引源码流程 ：

源码类：
1.CommonHttpSolrServer (SolrServer 的子类)
2.SolrServer（抽象类）
3.SolrRequest (基类)
4.AbstractUpdateRequest (抽象类、SolrRequest 的子类)
5.UpdateRequest (AbstractUpdateRequest 的子类)
6.SolrInputDocument（设置需要索引的名称和值、这个应该放在第一位）

创建索引代码：

查询数据库数据，或者其他文档数据进行索引

private void updateBook(String sql, String url, String idColumn,
String timeColumn,BufferedWriter dataFile) throws Exception {
long start = System.currentTimeMillis();
 SolrUtil solrUtil = new SolrUtil(url);// 初始化索引
SolrDocument doc = SqlSh.getSolrMaxDoc(solrUtil, idColumn, timeColumn);
if (doc == null) {
CommonLogger.getLogger().error(“solr no data.”);
return;
}
int maxId = Integer.parseInt(doc.get(idColumn).toString());
long maxTime = Long.parseLong(doc.get(timeColumn).toString())*1000;
Date maxDate = new Date(maxTime);

DateFormat dateFormat2 = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);
// 获取数据库需要索引的数据
ResultSet rs = stmt_m.executeQuery(String.format(sql,
dateFormat2.format(maxDate)));
// 获取需要创建索引的 key
initColumeMeta(rs.getMetaData());

// 解析数据并索引
parseRs(rs, solrUtil);

rs.close();

// 优化索引
solrUtil.server.optimize();

CommonLogger.getLogger().info(
“update book time:” + (System.currentTimeMillis() – start)
/ 1000 + “s”);
}

2. 咱们看下上面代码的 parseRs 方法：

// 下面是简单的解析数据方法并写索引

 private void parseRs(ResultSet rs, SolrUtil solrUtil) throws <SPAN></SPAN> Exception {Collection<SolrInputDocument> docs=new ArrayList<SolrInputDocument>();
		SolrInputDocument doc = null;
		int locBk = 0;
		boolean flag=true;
		StringBuilder sb=null;
		String vl=null;
		try {while (rs.next()) {doc = new SolrInputDocument();
				for (int i = 0; i < ToolMain.columnNames.length; i++) {
					doc.addField(ToolMain.columnNames[i],
						getColumnValue(rs.getObject(ToolMain.columnNames[i]),
							ToolMain.columnTypes[i]));// 此方法为设置一个域，可以添加一个参数来设置权重
				}
				docs.add(doc);
				locBk++;
				if (docs.size() >= 1000) {solrUtil.addDocList(docs);// 创建索引和提交索引操作都在这里面
					docs.clear();}
			}
			if (docs.size() > 0) {solrUtil.addDocList(docs);
				docs.clear();}
		} catch (Exception e) {throw e;} finally {docs.clear();
			docs = null;
		}
	}