前言
这是真正的使用篇~
1:Overview选项卡
图中,显示了统计结果,Field、Document、分词数量
其中field区域中统计了所有的Field,每个Field所包含的分词个数,百分比和编码格式。
分词区域中是索引的详细信息,统计了每个分词出现的词频,以及对应的Field名字
2:Documents选项卡
document选项卡用于文档的增删查改,下方的表格就像数据表一样,为我们展示每一个文件的具体数据,我们可以根据文档编号来查找文件。
新增document
点击Add按钮新增Document
更新document属性
点击Recoonstruct&Edit来更改当前Document的值与属性。
3:Search选项卡
在这个界面可以进行索引的搜索测试,构造lucene的搜索语句,选择匹配的field字段,并执行查询。也可以选择进行索引的分词器,设置默认字段和重复搜索次数,设置限制查询时间及匹配个数、是否可以模糊匹配、选取哪种相似度的匹配模式、是否选用XML Query模式,还可以查看查询花费的时间等
4:Commits选项卡
Comments选项卡用于查看每个索引文件的大小及相关属性,用于分析索引文件是否需要优化及合并等。
5:Plugins选项卡
这个页面是luke提供的各种插件,其中,Analyser Tool提供了一些分词的类,如图为luke分词的一个示例。Hadoop插件支持Hadoop( 0.20.1)的任何文件系统打开索引。 包含图形化视图工具、导出工具等等
6:总结
luke是配合使用lucene的神器。辅助查询field、document、及分词的信息及数据统计;
可以通过使用luke检查索引的正确性,分析索引文件并进行修改和优化,将索引文件转换为易于阅读的XML格式,并且更直观地看到我们的documents;
对于分词方面,luke可以加载分词包进行分词,进行词频统计及词汇增长统计,以及术语流行度统计等;对于搜索引擎,我们在构造查询语句之前,可以先使用luke进行查询语句校验,分析查询效率,更好地进行查询优化,这些对于设计一个更优秀的搜索引擎是很有必要的。
参考: