模型评估：余弦距离的应用

发布时间：2024年01月11日

其实在模型训练过程中，我们在不断地评估着样本间的距离，如何评估样本距离也是定义优化目标和训练方法的基础。

在机器学习问题中，通常将特征表示为向量的形式，所以在分析两个特征向量之间的相似性时，常使用余弦相似度来表示。余弦相似度的取值范围是[-1,1]，相同的两个向量之间的相似度为1。如果希望得到类似于距离的表示，将1减去余弦相似度即为余弦距离。因此，余弦距离的取值范围为[0,2]，相同的两个向量余弦距离为0.

1.为什么在一些场景中要使用余弦相似度而不是欧氏距离

对于两个向量A和B，其余弦相似度定义为 $\cos (A,B)=\frac{A\cdot B}{||A||_{2}||B||_2}$ ，即两个向量夹角的余弦，关注的是向量之间的角度关系，并不关心它们的绝对大小，其取值范围是[-1,1]。当一对文本相似度的长度差距很大，但内容十分相近时，如果使用词频或词向量作为特征，它们在特征空间中的欧氏距离通常很大；而如果使用余弦相似度的话，它们之间的夹角可能很小，因而相似度高。此外，在文本、图像、视频等领域，研究的对象的特征维度往往很高，余弦相似度在高维情况下依然保持“相同时为1，正交时为0，相反时为-1”的性质，而欧氏距离的数值则受维度的影响，范围不固定，并且含义也比较模糊。

在一些场景，例如Word2Vec中，其向量的模长是经过归一化的，此时欧氏距离与余弦距离有着单调的关系，即

$||A-B||_2=\sqrt{2(1-\cos(A,B))}$

其中 $||A-B||_2$ 表示欧氏距离， $\cos(A,B)$ 表示余弦相似度， $(1-\cos(A,B))$ 表示余弦距离。在此场景下，如果选择距离最小（相似度最大）的近邻，那么使用余弦相似度和欧式距离的结果是相同的。

总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。例如，统计两部剧的用户观看行为，用户A的观看向量为（0,1），用户B为（1,0）；此时二者的余弦距离很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。而当我们分析用户活跃度，以登录次数（单位：次）和平均观看时长（单位：分钟）作为特征时，余弦距离会认为（1,10）、（10,100）两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

特定的度量方法适用于什么样的问题，需要在学习和研究中多总结和思考，这样在遇到新的问题时也可以活学活用。

2.余弦距离是否是一个严格定义的距离?

该题主要考察对距离的定义的理解，以及简单的反证和推导。首先看距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定型、对称性、三角不等式）成立，则该实数可称为这对元素之间的距离。

余弦距离满足正定型和对称性，但是不满足三角不等式，因此他并不是严格定义的距离。具体来说，对于向量A和B，三条距离公理的证明过程如下。

正定性

根据余弦距离的定义，有

$\text{dist}(A,B)=1-\cos(\theta)=\frac{||A||_2||B||_2-AB}{||A||_2||B||_2}$

考虑到? $||A||_2||B||_2-AB\geq0$ ，因此有 $\text{dist}(A,B)\geq0$ 恒成立。特别地，有

$\text{dist}(A,B)=0 \Leftrightarrow ||A||_2||B||_2=AB\Leftrightarrow A=B$

对称性

根据余弦距离的定义，有

? $\text{dist}(A,B)=\frac{||A||_2||B||_2-AB}{||A||_2||B||_2}=\frac{||B||_2||A||_2-AB}{||B||_2||A||_2}=\text{dist}(B,A)$

因此余弦距离满足对称性。

三角不等式

该性质并不成立，下面给出一个反例。给定一个A=(1,0),B=(1,1),C=(0,1)，则有

? $\text{dist}(A,B)=1-\frac{\sqrt 2}{2}$

$\text{dist}(B,C)=1-\frac{\sqrt 2}{2}$

$\text{dist}(A,C)=1$

因此有

? $\text{dist}(A,B)+\text{dist}(B,C)=2-\sqrt 2<1=\text{dist}(A,C)$

其实从问题1中，我们也能够得出：单位圆上欧氏距离和余弦距离满足

$||A-B||=\sqrt{2\text{dist}(A,B)}$

即有如下关系

? $\text{dist}(A,B)=\frac{1}{2}||A-B||^2$

显然在单位圆上，余弦距离和欧氏距离的范围都是[0,2]。我们已知欧氏距离是一个合法的距离，而余弦距离与欧氏距离有二次关系，自然不满足三角不等式。具体来说，可以假设A与B、B与C非常近，其欧氏距离为极小量 $u$ ；此时A、B、C虽然在圆弧上，但近似在一条直线上，所以A与C的欧氏距离接近于 $2u$ 。因此，A与B、B与C的余弦距离为 $u^2/2$ ；A与C的余弦距离接近于 $2u^2$ ，大于A与B、B与C的余弦距离之和。

在机器学习领域，被俗称为距离，却不满足三条距离公理的不仅仅有余弦距离，还有KL距离（Kullback-Leibler Divergence），也叫作相对熵，它用于计算两个分布之间的差异，但不满足对称性和三角不等式。

文章来源:https://blog.csdn.net/weixin_55252589/article/details/135533957
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！