海码充电站的技术专栏 java Coder

lucene之luke的使用

2019-01-04
watermelon


luke使用

前言

这是真正的使用篇~

1:Overview选项卡

luke页面信息分析
图中,显示了统计结果,Field、Document、分词数量
其中field区域中统计了所有的Field,每个Field所包含的分词个数,百分比和编码格式。
分词区域中是索引的详细信息,统计了每个分词出现的词频,以及对应的Field名字

2:Documents选项卡

document选项卡用于文档的增删查改,下方的表格就像数据表一样,为我们展示每一个文件的具体数据,我们可以根据文档编号来查找文件。

新增document

点击Add按钮新增Document addLuke
addokLuke

更新document属性

点击Recoonstruct&Edit来更改当前Document的值与属性。 updateokLuke

3:Search选项卡

在这个界面可以进行索引的搜索测试,构造lucene的搜索语句,选择匹配的field字段,并执行查询。也可以选择进行索引的分词器,设置默认字段和重复搜索次数,设置限制查询时间及匹配个数、是否可以模糊匹配、选取哪种相似度的匹配模式、是否选用XML Query模式,还可以查看查询花费的时间等 search

4:Commits选项卡

Comments选项卡用于查看每个索引文件的大小及相关属性,用于分析索引文件是否需要优化及合并等。
Commits

5:Plugins选项卡

这个页面是luke提供的各种插件,其中,Analyser Tool提供了一些分词的类,如图为luke分词的一个示例。Hadoop插件支持Hadoop( 0.20.1)的任何文件系统打开索引。 包含图形化视图工具、导出工具等等

6:总结

luke是配合使用lucene的神器。辅助查询field、document、及分词的信息及数据统计; 可以通过使用luke检查索引的正确性,分析索引文件并进行修改和优化,将索引文件转换为易于阅读的XML格式,并且更直观地看到我们的documents;
对于分词方面,luke可以加载分词包进行分词,进行词频统计及词汇增长统计,以及术语流行度统计等;对于搜索引擎,我们在构造查询语句之前,可以先使用luke进行查询语句校验,分析查询效率,更好地进行查询优化,这些对于设计一个更优秀的搜索引擎是很有必要的。

参考:


Comments

Content