数据挖掘 - 文本数据挖掘



文本数据库包含大量的文档集合。它们从新闻文章、书籍、数字图书馆、电子邮件、网页等多个来源收集这些信息。由于信息量的增加,文本数据库正在迅速增长。在许多文本数据库中,数据是半结构化的。

例如,一个文档可能包含一些结构化字段,例如标题、作者、出版日期等。但除了结构化数据外,文档还包含非结构化文本组件,例如摘要和内容。在不知道文档中可能包含什么内容的情况下,很难制定有效的查询来分析和提取数据中的有用信息。用户需要工具来比较文档并对其重要性和相关性进行排名。因此,文本挖掘已成为数据挖掘中一个流行且重要的主题。

信息检索

信息检索处理从大量基于文本的文档中检索信息。一些数据库系统通常不存在于信息检索系统中,因为两者处理不同类型的数据。信息检索系统的示例包括:

  • 在线图书馆目录系统
  • 在线文档管理系统
  • 网络搜索系统等。

注意 - 信息检索系统中的主要问题是根据用户的查询在文档集合中找到相关的文档。这种用户的查询包含一些描述信息需求的关键词。

在这种搜索问题中,用户主动从集合中提取相关信息。当用户有临时信息需求(即短期需求)时,这是合适的。但如果用户有长期信息需求,则检索系统也可以主动将任何新到达的信息项推送给用户。

这种访问信息的方式称为信息过滤。相应的系统被称为过滤系统或推荐系统。

文本检索的基本度量

我们需要检查系统在根据用户的输入检索多个文档时的准确性。将与查询相关的文档集表示为{Relevant},将检索到的文档集表示为{Retrieved}。相关且已检索到的文档集可以表示为{Relevant} ∩ {Retrieved}。这可以用维恩图表示如下:

Measures

评估文本检索质量有三个基本指标:

  • 精确率
  • 召回率
  • F1值

精确率

精确率是检索到的文档中实际上与查询相关的文档的百分比。精确率可以定义为:

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

召回率

召回率是与查询相关的文档中实际上被检索到的文档的百分比。召回率定义为:

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F1值

F1值是常用的折衷方案。信息检索系统通常需要权衡精确率或召回率。F1值定义为召回率或精确率的调和平均数,如下所示:

F-score = recall x precision / (recall + precision) / 2
广告