Detecting Outliers with a Non-parametric estimation of the Mahalanobis distance
Fecha
2023
Autores
Piedrahita Jaramillo, Catalina
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
This paper proposes the creation of a robust version of the Mahalanobis distance for the outlier’s identification problem, using robust and non-parametric estimations for the covariance matrix, such as Kendall’s Tau and Median Absolute Deviation (MAD), as well as techniques that enhance the numerical properties of the covariance matrix to reduce error during numerical calculations like Ledoit and Wolf’s Shrinkage. The performance of the methods is evaluated through simulation of independent normal data, correlated normal data, and real data sets and compared with some methods from the literature. The proposed methods achieve a high percentage of correct identification of outliers and have a low false positive rate for both data types, particularly in the case of correlated normal data.
Descripción
Este artículo propone la creación de una versión robusta de la distancia de Mahalanobis para el problema de identificación de valores atípicos, utilizando estimaciones robustas y no paramétricas para la matriz de covarianza, como la Tau de Kendall y la Desviación Absoluta Mediana (MAD), así como técnicas que mejoran la Propiedades numéricas de la matriz de covarianza para reducir el error durante cálculos numéricos como el Shrinkage de Ledoit y Wolf. El rendimiento de los métodos se evalúa mediante la simulación de datos normales independientes, datos normales correlacionados y conjuntos de datos reales y se compara con algunos métodos de la literatura. Los métodos propuestos logran un alto porcentaje de identificación correcta de valores atípicos y tienen una baja tasa de falsos positivos para ambos tipos de datos, particularmente en el caso de datos normales correlacionados.