MBR 的组成元素是什么?
MBR 的各个组成元素如下:
选择训练集 - 训练集包含 49,652 条新闻报道,由新闻检索服务提供支持。这些报道来自大约三个月的新闻,以及近 100 个不同的来源。
每篇报道平均包含 2,700 个单词,并为其创建了八个代码。训练集并非专门创建的,因此训练集中代码的频率差异很大,这模拟了新闻报道中代码的整体频率。
选择距离函数 - 下一步是选择距离函数。在此方法中,存在一个距离函数,它依赖于一个称为相关反馈的概念,该概念根据两个文件包含的单词来计算它们的相似性。相关反馈(在侧边栏中更全面地定义)旨在返回与给定文档相似的文件,作为改进搜索的一种方法。相同的文档是 MBR 使用的邻居。
选择组合函数 - 下一个决定是组合函数。将分类代码创建到新闻报道中与大多数分类问题不同。一些分类问题正在寻找最佳解决方案。但是新闻报道可以有多个代码,即使来自相同的元素。MBR 能够适应这个问题突出了它的灵活性。
组合函数需要加权求和方法。因为最大距离是 1,所以权重很容易是一减去距离,因此对于距离较小的邻居,权重可以较大,而对于距离较大的邻居,权重可以较小。
选择邻居数量 - 该研究在 1 到 11(含)之间改变了最近邻的数量。使用更多邻居可以得到最佳结果。但是,本案例研究与 MBR 的几种应用不同,因为它为每个故事创建多个类别。通常的问题是只创建一个单独的类别或代码,而较少的邻居对于获得最佳结果就足够了。
为了计算 MBR 在编码方面的有效性,新闻服务有一个编辑委员会审查了一些分配的代码(无论是编辑还是 MBR 分配的),共 200 篇报道。小组大多数成员同意的某些代码被视为“正确”的。
将“正确”代码与人类编辑最初创建的代码进行比较很有趣。最初为报道创建的代码(由人类)中有 88% 是正确的,但人工编辑也犯了错误。
数据结构
网络
关系数据库管理系统 (RDBMS)
操作系统
Java
iOS
HTML
CSS
Android
Python
C 编程
C++
C#
MongoDB
MySQL
Javascript
PHP