Welcome

首页 / 软件开发 / 数据结构与算法 / Mahout系列:距离度量

Mahout系列:距离度量2014-04-24 csdn博客 yueyedeaix = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为

(1)欧氏距离   EuclideanDistanceMeasure

(2)曼哈顿距离  ManhattanDistanceMeasure

(3)马氏距离MahalanobisDistanceMeasure

马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。它 是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联 系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关 的(scale-invariant),即独立于测量尺度。 对于一个均值为

,协方差矩阵为

的多变量向量

,其马氏距离为

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为

的随机变量

的差异程度:

如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为 正规化的欧氏距离

其中

的标准差。