Lucene - 分析



在我们之前的一个章节中,我们已经看到,Lucene 使用IndexWriter 根据分析器来分析文档,然后根据要求创建/打开/编辑索引。在本章中,我们将讨论分析过程中使用的各种类型的分析器对象和其他相关对象。了解分析过程以及分析器如何工作,将让你深入了解 Lucene 如何为文档建立索引。

以下是我们将在适当的时候讨论的对象列表。

序号 类和描述
1 Token

Token 表示文本或文档中的单词,并包含相关详细信息,如元数据(位置、起始偏移量、结束偏移量、Token 类型及其位置增量)。

2 TokenStream

TokenStream 是分析过程的输出,它包含一系列 Token。它是一个抽象类。

3 Analyzer

这是每种分析器的一个抽象基类。

4 WhitespaceAnalyzer

此分析器根据空格拆分文档中的文本。

5 SimpleAnalyzer

此分析器根据非字母字符拆分文档中的文本,并将文本转换为小写。

6 StopAnalyzer

此分析器的行为就像 SimpleAnalyzer,并会删除常用单词,如'a', 'an', 'the', 等。

7 StandardAnalyzer

这是最复杂的分析器,它能够处理姓名、电子邮件地址等。它使每个 Token 变为小写,并删除常用单词和标点符号(如果有)。

广告
© . All rights reserved.