导航：首页 > 互联网科技 >

lucene4.7收集器Collector怎么自定义

发表于：2025-01-24 作者：千家信息网编辑

千家信息网最后更新 2025年01月24日，本篇内容介绍了"lucene4.7收集器Collector怎么自定义"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，

千家信息网最后更新 2025年01月24日lucene4.7收集器Collector怎么自定义

本篇内容介绍了"lucene4.7收集器Collector怎么自定义"的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

我们先来回顾下，一个基本的搜索流程是怎么完成的
1，得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2，得到一个DirectoryReader。
3，实例化查询组件IndexSearcher。
4，检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果

我们看下这个检索的流程，大概可以分这5步，前1,2,3算是准备工作，后面的2步是我们经常需要进行数据处理的地方，那么我们Collector到底工作在哪一步呢？，其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的？为什么需要使用Collector？

在这之前先分析下TopDocs这个类，这个类的工作原理，其实在后台使用的也是一个收集器，收收集我们检索的结果，通过TopDocsCollector这个基类下面的2个子类收集器，来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集，某些情况下使用collector可以可以极大的提升我们程序的性能，通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作，当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法

方法	说明
collect()	检索时，每匹配上一个文档，都会调用此方法
acceptsDocsOutOfOrder()	测试本collector是否能处理无序到达的docid
setScorer(Scorer scorer)	处理检索结果的评分
setNextReader(AtomicReaderContext context)	检索时，在多个索引段结构之间切换的方法

下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.

package com.piaoxuexianjing;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.lucene.index.AtomicReaderContext;import org.apache.lucene.search.Collector;import org.apache.lucene.search.ScoreDoc;import org.apache.lucene.search.Scorer;/** * @author * @version 1.0 *  * 自定义收集器 * 实现评分收集 * **/public class MyScoreCollector extends Collector {    //private HashMap documents=new HashMap();    List docs=new ArrayList();    private Scorer scorer;//scorer类    private int docBase;//全局相对段基数         @Override    public boolean acceptsDocsOutOfOrder() {        // TODO Auto-generated method stub        //返回true是允许无次序的ID        //返回false必须是有次序的        return true;    }    @Override    public void collect(int arg0) throws IOException {        /**         * 匹配上一个文档         * 就记录其docid与打分情况         *          * */        docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//    }//    BinaryDocValues names;//字符类型的内置存储//    BinaryDocValues bookNames;//字符类型的内置存储//    BinaryDocValues ids;//字符类型的内置存储//    BinaryDocValues prices;//字符类型的内置存储//    FieldCache.Doubles d ; //数值类型的内置存储//    FieldCache.Ints ints;//数值类型的内置存储    @Override    public void setNextReader(AtomicReaderContext arg0) throws IOException {        this.docBase=arg0.docBase;//记录每个索引段结构的相对位置    }    @Override    public void setScorer(Scorer arg0) throws IOException {        // TODO Auto-generated method stub        this.scorer=arg0;//记录改匹配的打分情况            }}

测试类的核心代码

    //自定义收集器           MyScoreCollector  scoreCollector=new MyScoreCollector();          searcher.search(new MatchAllDocsQuery(), scoreCollector);          /**           * 自定义的收集类，实现效果===>ScoreDocs类           *            **/          List s=scoreCollector.docs;          for(ScoreDoc sc:s){              System.out.println(sc.doc+"===="+sc.score);          }

输出结果如下

0====1.01====1.02====1.03====1.04====1.05====1.06====1.07====1.0

"lucene4.7收集器Collector怎么自定义"的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站，小编将为大家输出更多高质量的实用文章！

很赞哦！

检索收集器类型结果存储情况字符处理作用文档方法索引工作之间代码内容数值数据是在更多数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全戴尔服务器t440加什么显卡江苏电商软件开发需要多少钱数据库可视工具 app 税局网络安全计算机网络技术发展机遇分析网络安全专业高职比例网络安全的基本特性包括网络安全与大数据应用工程网络安全警情提示 r440服务器默认密码电子数据库商中职面试计算机网络技术厦门搜企网络技术公司 app软件开发评论图片申论网络安全教育农行软件开发中心社招江苏智慧景区软件开发公司网络安全审查坚持哪些内容数据库分区分表概念支行国家网络安全周活动总结为什么网络安全缺人 cos网络安全什么意思德清县软件开发定制国内网络安全标准软件开发者职业生涯指南作者南沙区无源网络技术开发动态数据库全量表的逻辑怎么理解服务器地址与网关相同涉税软件开发需求网络安全网安部门

千家信息网

千家信息网

lucene4.7收集器Collector怎么自定义

多页内容如何打印在一张A4纸上

如何构建基于Ceph对象存储

相关文章