机器学习的距离计算

机器学习建模时,评估模型输出和标签常用函数

什么是 Wasserstein 距离?

  • 度量了两个概率分布的相似度,由一个分布转变为另一个分布所需要的代价
  • W(P1,P2)=infγ(P1,P2)Ex,yγ[xy]W(P_1,P_2)=inf_{\gamma \in \prod(P_1,P_2)}E_{x,y \in \gamma} [||x-y||]

什么是马氏距离?

  • 是一种距离的度量,可以看作是欧氏距离的一种修正,通过协方差矩阵来考虑变量相关性,修正了各个维度尺度不一致且相关的问题
  • 单个数据点的马氏距

DM(x)=(xμ)T1(xμ)D_M(x)=\sqrt {(x-\mu)^T\sum^{-1}(x-\mu)}

  • 数据点 x,y 之间的马氏距

DM(x,y)=(xy)T1(xy)D_M(x,y)=\sqrt{(x-y)^T\sum^{-1}(x-y)}

  • 局限
    • 协方差矩阵必须满秩:里面有求逆矩阵的过程,不满秩不行,要求数据要有原维度个特征值,如果没有可以考虑先进行主成份分析 (PCA) 算法,这种情况下 PCA 不会损失信息
    • 不能处理非线性流形上的问题:只对线性空间有效,如果要处理流形,只能在局部定义,可以用来建立 K 近邻 (KNN) 图

什么是兰氏距离?

  • 是聚类分析中用于确定样本间距离的一种常见方法 , 服了量纲的影响,但没有考虑指标间的相关性
  • di,j(L)=1mk=1mxikxjkxik+xjkd_{i,j}(L)=\frac {1} {m}\sum_{k=1}^m\frac {|x_{ik}-x_{jk}|} {|x_{ik}+x_{jk}|}

  • 是一个无量纲的量,对大的奇异值不敏感,这使其特别适合高度偏移的和数据
  • 闵可夫斯基距离和兰氏距离都是假定变量之间相互独立,即在正交空间中讨论距离。但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间相关性的影响,可以采用马氏距离

什么是闵可夫斯基距离?

  • 又称闵氏距离,不止代表一种距离,而是一组距离的定义,n 维实数空间,任意两个点的距离称为闵可夫斯基距

Lp(xi,xj)=[l=1nxi(l)xj(l)p]1pL_p(x_i,x_j)=[\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p]^{\frac {1} {p}}

  • 当 p=1, 为 :曼哈顿距离,也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和
  • 当 p=2, 为:欧氏距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离
  • 当 p = 无穷:切比雪夫距离
  • 闵氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离均没有考虑样本特征的量纲及相关性

什么是欧氏距离 (L2 距离)?

  • 也称欧几里得度量、L2 距离, 是一个常用的距离指标,指在 m 维空间中两个点之间的真实距离
  • d(x,y)=i=1n(xiyi)2d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}

什么是标准欧氏距离?

  • 针对欧氏距离的缺点而作的一种改进方案
  • 先将各个分量都 “标准化” 到均值、方差相等,按照下面公式可将分量标准化为期望 0,方差 1 的数据 X=XmsX^* =\frac{X-m}{s}
  • 则 两个 n 维向

a (x_{11},x_{12},…,x_{1n}) 与 b (x_{21},x_{22},…,x_{2n})$$ 间的标准化欧氏距离的公式 $$d_{12}=\sqrt {\sum_{k=1}^n (\frac {x_{1k}-x_{2k}}{s_k})^2}

什么是曼哈顿距离?

  • 也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和
  •  Manhattan Distance =l=1nxi(l)xj(l)\text { Manhattan Distance }=\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|

什么是切比雪夫距离?

  • 是向量空间中的一种度量,二个点之间的距离定义是其各坐标数值差绝对值的最大值
  • limp([l=1nxi(l)xj(l)p]1p)=max(xi(l)xj(l))\lim _{p \rightarrow \infty}([\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p]^{\frac {1} {p}})=\max(|x_i^{(l)}-x_j^{(l)}|)

什么是余弦距离?

  • 表示变量之间的正负相关性
  • AB2=A.BA2B2||A-B||_2=\frac {A.B} {||A||_2||B||_2}

什么是均值 (算术平均值)?

  • 一个变量的统计量,众多数据中的平均值
  • (ˉX)=i=1nXin\bar(X)=\frac{\sum_{i=1}^nX_i}{n}

什么是标准差?

  • 一个变量的统计量,众多数据中离平均值距离的平方和的开方
  • s=i=1n(XiXˉ)2n1s=\sqrt {\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1}}

什么是 TF-IDF?

  • TF-IDF(TermFrequency–InverseDocumentFrequency)是一种用于进行信息检索与数据挖掘的常用加权技术,用以评估一个词对于一个段落集或一个语料库中的其中一个段落的重要程度