倒排索引和正排索引的区别


倒排索引和正排索引是用于搜索文档或文档集中文本的数据结构。

倒排索引

倒排索引将单词存储为索引,并将文档名称存储为映射的引用。

正排索引

正排索引将文档名称存储为索引,并将单词存储为映射的引用。

以下是倒排索引和正排索引之间一些重要的区别。

序号关键点倒排索引正排索引
1映射模式倒排索引将单词存储为索引,并将文档名称存储为映射的引用。正排索引将文档名称存储为索引,并将单词存储为映射的引用。
2索引构建过程
  • 扫描文档,准备唯一单词列表。

  • 准备所有唯一单词的索引列表,并将它们映射到文档搜索。

  • 对所有文档重复上述步骤。

  • 扫描文档,准备唯一单词列表。

  • 将所有单词映射到文档作为索引。

  • 对所有文档重复上述步骤。

3索引在倒排索引中,索引速度较慢,因为在准备索引之前必须检查每个单词。在正排索引中,索引速度很快,因为找到关键字后会附加。
4搜索在倒排索引中,搜索速度很快。在正排索引中,搜索速度很慢。
5示例
Word Documents
-------------------------
Welcome doc1
Hello doc1, doc3
Hi doc2
-------------------------
Word Documents
-------------------------
doc1 Welcome, Hello
doc2 Hi
doc3 Hello
-------------------------
6重复性在倒排索引中,索引中不存储重复的关键字。在正排索引中,索引中可能存在重复的关键字,例如“Hello”。
7现实生活中的例子索引末尾的词汇表,反向查找。书籍开头的目录,DNS 查找。

更新于:2020年4月15日

2K+ 浏览量

启动你的职业生涯

完成课程获得认证

开始学习
广告