Расстояние Махаланобиса

Расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния.

Предложено индийским статистиком Махаланобисом в 1936 году^[1]. С помощью расстояния Махаланобиса можно определять сходство неизвестной и известной выборки. Оно отличается от расстояния Евклида тем, что учитывает корреляции между переменными и инвариантно к масштабу.

Определение

Формально, расстояние Махаланобиса от многомерного вектора $x=(x_{1},x_{2},x_{3},\dots ,x_{N})^{T}$ до множества со средним значением $\mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{N})^{T}$ и матрицей ковариации $S$ определяется следующим образом^[2]:

D_{M}(x)={\sqrt {(x-\mu )^{T}S^{-1}(x-\mu )}}.

Расстояние Махаланобиса также можно определить как меру несходства между двумя случайными векторами ${\vec {x}}$ и ${\vec {y}}$ из одного распределения вероятностей с матрицей ковариации $S$ :

d({\vec {x}},{\vec {y}})={\sqrt {({\vec {x}}-{\vec {y}})^{T}S^{-1}({\vec {x}}-{\vec {y}})}}.

Если матрица ковариации является единичной матрицей, то расстояние Махаланобиса становится равным расстоянию Евклида. Если матрица ковариации диагональная (но необязательно единичная), то получившаяся мера расстояния носит название нормализованное расстояние Евклида:

d({\vec {x}},{\vec {y}})={\sqrt {\sum _{i=1}^{N}{(x_{i}-y_{i})^{2} \over \sigma _{i}^{2}}}}

Здесь $\sigma _{i}$ — среднеквадратичное отклонение $x_{i}$ от $y_{i}$ в выборке.

Интуитивное объяснение

Рассмотрим задачу определения вероятности того, что некоторая точка в N-мерном евклидовом пространстве принадлежит множеству, которое задано набором точек, определённо принадлежащих данному множеству. Найдем центр масс множества. Интуитивно понятно, что чем ближе заданная точка к центру масс, тем больше вероятность того, что она принадлежит множеству.

Однако также стоит учитывать, на какого размера области рассредоточены точки множества, чтобы понять, насколько значимо расстояние между заданной точкой и центром масс. Самый простой подход заключается в вычислении среднеквадратичного отклонения точек множества от центра масс. Если расстояние между заданной точкой и центром масс меньше среднеквадратичного отклонения, то можно заключить, что вероятность принадлежности точки множеству высока. Чем дальше точка, тем больше вероятность того, что она не принадлежит множеству.

Этот интуитивный подход можно определить математически через расстояние между заданной точкой и множеством по формуле ${x-\mu } \over \sigma$ . С помощью подстановки этого значения в нормальное распределение можно найти вероятность принадлежности точки множеству.

Недостаток такого подхода заключается в использовании предположения о том, что точки множества сферически распределены вокруг центра масс (то есть равномерно по всем измерениям). Если же распределение явно не сферическое (например, эллипсоидальное), то было бы естественным учитывать в вероятности принадлежности не только расстояние до центра масс, но и направление на него. В направлении короткой оси эллипсоида заданная точка должна быть ближе к центру масс, чтобы принадлежать множеству, в то время как в направлении длинной оси она может быть дальше.

Для записи этого в математическом виде эллипсоид, лучшим образом представляющий вероятностное распределение множества, может быть задан матрицей ковариаций множества. Расстояние Махаланобиса — это просто расстояние между заданной точкой и центром масс, делённое на ширину эллипсоида в направлении заданной точки.

Приложения

Расстояние Махаланобиса было сформулировано во время работы над идентификацией сходства черепов, основанной на измерениях 1927 года^[3].

Расстояние Махаланобиса широко используется в кластерном анализе и методах классификации. Оно тесно связано с распределением T-квадрат Хотеллинга (англ. Hotelling's T-squared distribution), используемым в многомерном статистическом тестировании, и линейным дискриминантным анализом Фишера, используемым в машинном обучении с учителем^[4].

Чтобы использовать расстояние Махаланобиса в задаче определения принадлежности заданной точки одному из N классов, нужно найти матрицы ковариации всех классов. Как правило, это делается на основе известных выборок из каждого класса. Затем необходимо подсчитать расстояние Махаланобиса от заданной точки до каждого класса и выбрать класс, для которого это расстояние минимально. Используя вероятностную интерпретацию, можно показать, что это эквивалентно выбору класса с помощью метода максимального правдоподобия.

Также расстояние Махаланобиса используется для нахождения выбросов, например, в задаче построения линейной регрессии. Точка, имеющая наибольшее расстояние Махаланобиса до остального множества заданных точек, считается имеющей наибольшую значимость, так как она имеет наибольшее влияние на кривизну и на коэффициенты уравнения регрессии. Кроме того, расстояние Махаланобиса используется в задаче определения многомерных выбросов и при работе с активными моделями формы.

Примечания

↑ Mahalanobis, Prasanta Chandra. On the generalised distance in statistics (неопр.) // Proceedings of the National Institute of Sciences of India. — 1936. — Т. 2, № 1. — С. 49—55. Архивировано 29 мая 2013 года.
↑ De Maesschalck, R.; D. Jouan-Rimbaud, D.L. Massart (2000) The Mahalanobis distance. Chemometrics and Intelligent Laboratory Systems 50:1–18
↑ Mahalanobis, P. C. (1927). Analysis of race mixture in Bengal. J. Proc. Asiatic Soc. of Bengal. 23:301-333.
↑ McLachlan, Geoffry J (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 0471691151 p. 12