Detecting Outliers with a Non-parametric estimation of the Mahalanobis distance

Resumen

This paper proposes the creation of a robust version of the Mahalanobis distance for the outlier’s identification problem, using robust and non-parametric estimations for the covariance matrix, such as Kendall’s Tau and Median Absolute Deviation (MAD), as well as techniques that enhance the numerical properties of the covariance matrix to reduce error during numerical calculations like Ledoit and Wolf’s Shrinkage. The performance of the methods is evaluated through simulation of independent normal data, correlated normal data, and real data sets and compared with some methods from the literature. The proposed methods achieve a high percentage of correct identification of outliers and have a low false positive rate for both data types, particularly in the case of correlated normal data.

Descripción

Este artículo propone la creación de una versión robusta de la distancia de Mahalanobis para el problema de identificación de valores atípicos, utilizando estimaciones robustas y no paramétricas para la matriz de covarianza, como la Tau de Kendall y la Desviación Absoluta Mediana (MAD), así como técnicas que mejoran la Propiedades numéricas de la matriz de covarianza para reducir el error durante cálculos numéricos como el Shrinkage de Ledoit y Wolf. El rendimiento de los métodos se evalúa mediante la simulación de datos normales independientes, datos normales correlacionados y conjuntos de datos reales y se compara con algunos métodos de la literatura. Los métodos propuestos logran un alto porcentaje de identificación correcta de valores atípicos y tienen una baja tasa de falsos positivos para ambos tipos de datos, particularmente en el caso de datos normales correlacionados.

Palabras clave

Mahalanobis, Atípicos, No paramétrico, Covarianza

Citación