推荐系统中寻找相似性的技巧


简介

相似度度量在推荐系统中至关重要,用于查找具有相似行为、模式或品味的用户。如今,推荐系统被广泛应用于许多实用程序中,例如 Netflix 的电影推荐、电子商务和亚马逊等平台的产品推荐等。组织使用偏好矩阵来捕捉用户对特定属性产品的行为和反馈数据。他们还会捕捉用户购买产品的顺序和趋势,并在过程中捕捉具有相似行为的用户。

在本文中,让我们简要了解推荐系统背后的理念,并详细探讨相关的相似性技巧和度量。

什么是推荐系统,它们有哪些类型?

推荐系统是一种机器学习算法,它从流行的网站(如电子商务和电影网站)收集或使用用户数据,这些数据涉及用户行为,例如观看历史、点击、兴趣和评分,并利用这些数据开发一个模型,该模型可以将具有相似兴趣或喜好的用户分组,向他们推荐产品或电影,甚至根据他们的活跃度对他们进行排名等。

推荐系统有两种方法。

第一种是基于内容的算法,第二种称为协同过滤。

在**基于内容的方法**中,系统会捕捉用户消费内容类型的数据。根据这些数据,算法可以将来推荐相似的内容。

例如,一个观看大量科幻电影的人,会根据模型捕捉到的他的兴趣和喜好,获得其他科幻电影的推荐。

在**协同过滤**中,算法根据多个用户的喜好向用户推荐,而不是仅仅根据特定用户消费的内容。

相似度矩阵

在协同过滤中,使用的方法是查找相似的用户。为此,算法会根据用户偏好生成一个矩阵。例如,让我们以 Netflix 为例,四个用户 A、B、C 和 D 观看 7 部电影,如 GOT1、GOT2、GOT3、HP1、HP2、PB1 和 PB2,并对这些电影进行评分。空白行表示未评分。

GOT1

GOT2

GOT3

HP1

HP2

PB1

PB2

A

5

5

5

4

B

4

3

5

4

C

4

4

4

3

4

D

4

5

5

5

5

上述矩阵称为效用矩阵。

在此过程之后,计算相似度并生成相应的矩阵。

相似度矩阵可能如下所示

  • **欧几里得距离** - 它是两个向量之间的距离,表示为

$\mathrm{d(x\:,\:y)\:= \sqrt{\:(\:x_{1}\:-\:y_{1}\:)^{2}\:\:+(\:x_{2}\:-\:y_{2}\:)^{2}\:\:+\:(\:x_{3}\:-\:y_{3}\:)\:^2+\:\ldots}\:+\:(x^{n}-y^{n})^{2}} $

例如,欧几里得距离让 A、B 和 C 为三个用户,其向量为

A = [1,0,0,1,1]

B = [0,0,0,0,1]

C = [1,1,0,1,1]

$\mathrm{d(A\:,\:B)\:= \sqrt{\:(\:0_\:-\:1\:)^{2}\:\:+(\:0\:-\:0\:)^{2}\:\:+\:(\:0\:-\:0\:)\:^2+\: (\:0\:-\:1\:)\:^2+\:+ (\:1\:-\:1\:)\:^2}\:=\:\sqrt{2}\:=\:1.414}$

$\mathrm{d(A\:,\:B)\:= \sqrt{\:(\:1_\:-\:1\:)^{2}\:\:+(\:1\:-\:0\:)^{2}\:\:+\:(\:0\:-\:0\:)\:^2+\: (\:1\:-\:1\:)\:^2+\:+ (\:1\:-\:1\:)\:^2}\:=\:1}$

因此,从上面可以明显看出,用户 C 比用户 B 更接近用户 A。

因此,相似度与向量之间的距离成反比。

  • **余弦相似度** - 余弦相似度衡量以零为起点两个向量之间的角度。向量之间的角度越小,相似度越高。

在数学上,它可以表示为:

$\mathrm{SIM\:=\:\cos\theta\:=\frac{A\:\cdot\:B}{\:\rvert\rvert\:A\:\rvert\rvert\:\rvert\rvert\:B\:\rvert\rvert}\:=\:\frac{\displaystyle\sum\limits_{i=1}^n \:\:\:\:\:A_{i}B_{i}}{\sqrt{ \displaystyle\sum\limits_{i=1}^n A_{i}^2}\;\sqrt{\displaystyle\sum\limits_{i=1}^n B_{i}^2}}}$

在上述两种度量中,欧几里得度量原始距离度量,而余弦距离和相似度也考虑了两个向量的方向。因此,在查找相似用户时,余弦相似度优于欧几里得距离,因为我们考虑了用户偏好。

结论

相似度度量是推荐系统的核心。有许多此类度量可用,然而,在所有这些度量中,欧几里得距离和余弦相似度是最广泛使用的度量。欧几里得距离度量空间中两个向量之间的空间距离,而余弦相似度度量两个向量之间角度的余弦,并且取决于空间中向量的方向和角度。这两种方法在推荐系统中都非常有效。

更新于: 2023年9月26日

247 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.