推荐系统中的稀疏性问题处理


引言

在推荐系统中,协同过滤是构建模型并寻找用户之间相似性的方法之一。这一概念广泛应用于电子商务网站、OTT平台和视频共享平台。此类系统在初始建模阶段面临的一个备受关注的问题是数据稀疏性,即只有少数用户在平台上给出评分或评论,并以任何方式参与交互。

在本文中,让我们了解推荐系统中数据稀疏性的问题,并了解处理它的方法。

数据稀疏性

协同过滤的主要目标是聚合具有相似想法和共同选择的用户的评分或对产品/电影等的评论。通过收集基于用户对产品/电影等的评分或评论的用户级别信息来实现这一点。因此,生成了一个用户和项目评分矩阵。然而,大多数情况下,这个矩阵是高度稀疏的,可能高达99%。当出现新用户时,另一个问题出现了,因为关于评分的信息非常少。

这在冷启动问题中也很明显。

如何处理数据稀疏性?

有一些方法可以处理数据稀疏性。

  • 降维 − 采用降维算法,将用户和项目交互矩阵简化为更密集的形式,同时保留已交互并提供评分的最相关的用户。所有预测都基于此简化后的密集矩阵。此方法可以提高许多推荐系统的性能,但是有一个缺点,即会导致宝贵信息的丢失。

  • 推断用户之间的信任 − 在这种方法中,我们试图找到两个可能没有直接关联的用户之间的信任因素。但是,它们可以通过中间用户(例如P)相关联。

例如,如果用户S和N对I1相关联,并且用户N和T对I2进行了评分,为了找到S和T之间的关系,我们可以使用通过用户N的信任路径,因为N是S和T之间的共同链接。

如此定义的信任路径的长度(k)可能会有所不同,如果源用户和目标用户没有共同的关系或信任用户,则可能变得无限。

  • 系统中的社交网络 − 通过对双方共同评分的项目的用户来推断和建立关系。还有其他类型的交互,例如反馈、交易等。这是通过在推荐系统中构建社交网络来实现的。这种方法涉及两个过程:成员资格和演变。在成员资格中,任何新用户或现有用户都必须至少对一个项目进行评分才能加入这样的网络。

    在演变阶段,随着越来越多的用户与网络进行交互,交互和链接会增长和加强,并且会建立更多的关联。

结论

稀疏性问题是推荐系统中非常常见的问题,主要与协同过滤方法有关。当数据稀疏且无法从中识别邻居时,就会出现稀疏性。这可能会限制推荐算法/系统推荐的质量,但是有一些方法,如降维、推断用户之间的信任以及社交网络,已被证明对解决此问题非常有用。

更新于:2023年9月22日

浏览量:205

启动您的职业生涯

完成课程获得认证

开始学习
广告