推荐系统三十六式学习笔记：原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些？

本文主要是介绍推荐系统三十六式学习笔记：原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

相似度的本质

推荐系统中，推荐算法分为两个门派，一个是机器学习派，一个是相似度门派。机器学习派是后起之秀，而相似度门派则是泰山北斗。
近邻推荐，近邻并不一定只是在三维空间下的地理位置的近邻，也可以是高维空间的近邻。

近邻推荐的核心就是相似度计算方法的选择，由于近邻推荐并没有采用最优化思路，所以效果通常取决于矩阵的量化方式和相似度的选择。

相似度，与之相对应的一个概念是距离，两者都可以用来度量两个物体在高维空间中的亲疏关系。

推荐系统中的相似度门派，实际上有这么一个潜在假设：如果两个物体很相似，也就是距离很近，那么这两个物体就很容易产生一样的动作。

在近邻推荐中，最常用的相似度是余弦相似度，除了余弦相似度，还有欧式距离，皮尔逊相关度，自适应余弦相似度，局部敏感哈希等，使用场景各有不同，今天，我会分别一一介绍。

相似度的计算方法：

数据分类
相似度计算对象是向量，或者叫做高维空间下的坐标。那表示这个向量的数值就有两只能够：
1、实数值；
2、布尔值，也就是0或1；

下面介绍的不同计算方法适用于不同的数据种类。

1、欧式距离

欧氏距离，是一个欧式空间下度量距离的方法。两个物体，都在同一空间下表示为两个点，假如叫做p和q,分别都是n个坐标。那么欧式距离就是衡量这两个点之间的距离，欧式距离不适合布尔向量之间。
计算公式如下：
$\sqrt {\sum_{i=1}^n{(p_i - q_i)^2}}$

这个公式就是：每个坐标上的值相减，求平方和，最后输出方根。
显然，欧式距离得到的值是一个非负数，通常相似度计算度量结果希望是[-1,1]或者[0,1]之间，所以欧式距离无法直接应用到这种场景下，需要转换，最常用的转换公式如下：

$\frac{1}{1+ E(p,q)}$
距离加一后取倒数。这个公式能够把范围为0到正无穷的欧式距离转换为0到1的相似度。
欧式距离度量的是空间中两个点的绝对差异，适用于分析用户能力模型之间的差异，比如消费能力、贡献内容的能力等；

2、余弦相似度

余弦相似度，度量的是两个向量之间的夹角，其实就是用夹角的余弦值来度量，所以名字叫余弦相似度。当两个向量的夹角为0度时，余弦值为1，当夹角为90度时，余弦值为0，当夹角为180度时，余弦值为-1。

余弦相似度在度量文本相似度，用户相似度、物品相似度的时候都比较常用；但是需要注意的是，余弦相似度的特点：它与向量的长度无关。因此，余弦相似度计算时需要对向量长度做归一化；
$\frac{\sum_{i=1}^n{p_i * q_i}}{\sqrt{\sum_{i=1}^n{p_i}^2 } * \sqrt{\sum_{i=1}^n{q_i}^2 }}$

经过向量长度归一化后的相似度量方式，背后隐藏着这样一种思想：两个向量，只要方向一致，无论程度强弱，都可以视为相似。

在协同过滤中，如果选择余弦相似度，某种程度上更加依赖两个物品的共同评价用户数，而不是用户给与的评分多少。这是由于余弦相似度被向量长度归一化后的结果。

余弦相似度对绝对绝对值大小不敏感这件事，在某些应用上仍然有些问题。

举个例子，用户A对两部电影的评分分别为1分、2分，用户B对同样两部电影的评分分别是4分、5分。用余弦相似度计算出来，两个用户的相似度达到0.98.这显然与实际不符，用户A明显不喜欢这两部电影。

用户	电影1	电影2
用户A	1	2
用户B	4	5

计算用户A和用户B的余弦相似度：
$=\frac{1*4+ 2*5}{ \sqrt{1^2+2^2} * \sqrt{4^2+5^2}} = \frac{14}{\sqrt{205}}≈0.98$

针对这个问题，对余弦相似度有个改进，改进的算法叫做调整的余弦相似度（Adjusted Cosine Similarity）。调整的方法很简单，就是先计算向量每个维度上的均值，然后每个向量在各个维度上都减去均值后，再计算余弦相似度。
电影1平均分为：（1+4）/2 =2.5；电影2平均分为：（2+5）/2 =3.5；

$=\frac{(1-2.5)*(4-2.5)+ (2-3.5)*(5-3.5)}{ \sqrt{(1-2.5)^2+(2-3.5)^2} * \sqrt{(4-2.5)^2+(5-3.5)^2}} = \frac{-4.5}{\sqrt{4.5}}=-1$

用调整后的余弦相似度计算得到的相似度是-1,呈现出两个用户口味相反，和直觉相符。

3、皮尔逊相关度

皮尔逊相关度，实际上也是一种余弦相似度，不过先对向量做了中心化，向量p和向量q各自减去向量的均值后，再计算余弦相似度。
$\frac{\sum_{i=1}^n{(p_i - u_p) *(q_i -u_q)}}{\sqrt{\sum_{i=1}^n{(p_i - u_p)^2}} * \sqrt{\sum_{i=1}^n{(q_i - u_q)^2}}}$

皮尔逊相关度计算结果范围在-1和1之间，-1表示负相关，1表示正相关。皮尔逊相关度，其实计算的是两个随机变量是不是在同增同减。
由于皮尔逊相关度度量的是两个变量的变化趋势是否一致，所以不适合用作计算布尔向量之间的相关度。
还以上面的例子举例，用户A对两部电影的评分分别为1分、2分，用户B对同样两部电影的评分分别是4分、5分，那么使用皮尔逊相关系数的公式计算两个用户之间的相关系数：
首先，我们需要计算用户A和用户B的评分均值：

用户A的评分均值： (1+2)/2 = 1.5
用户B的评分均值： (4+5)/2 = 4.5

然后，我们可以使用皮尔逊相关系数的公式计算两个用户之间的相关系数：

$\rho_{A,B} = \frac{\sum_{i=1}^{2} (x_i - 1.5)(y_i - 4.5)}{\sqrt{\sum_{i=1}^{2} (x_i - 1.5)^2} \sqrt{\sum_{i=1}^{2} (y_i - 4.5)^2}}$

将用户A和用户B的评分代入公式中进行计算：

$\rho_{A,B} = 1$

因此，通过计算，用户A和用户B之间的皮尔逊相关系数为1，这表示它们之间存在完全的正相关关系。

4 、杰卡德（Jaccard）相似度

杰尔德相似度，是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示，所以杰尔德相似度简直就是为布尔值向量私人定做的。对应的计算公式是：
$\frac{|A ∩ B|}{|A ∪ B|}$

1、分子是两个布尔向量做点积计算，得到的就是交集元素个数；
2、分母是两个布尔向量做或运算，再求元素和。

余弦相似度适用于评分数据，杰尔德相似度适合用于隐式反馈数据。例如，使用用户的收藏行为，计算用户之间的相似度，杰尔德相似度就适合来承担这个任务。

总结

今天，我介绍了常用的几种相似度计算方法，以及其各自的使用场景。

这里的场景是按数据形式划分的，按照向量维度取值是否是布尔值来看，杰卡德相似度就只适合布尔值向量，余弦相似度弹性略大，适合两种向量。欧式距离度量的是空间中两个点的绝对差异，适用于分析用户能力模型之间的差异，比如消费能力、贡献内容的能力等；是绝对差异，余弦相似度度量的是方向差异，但是调整的余弦相似度则可以避免这个弱点。

在这里插入图片描述