Detecting Outliers with a Non-parametric estimation of the Mahalanobis distance

dc.contributor.advisorLaniado Rodas, Henryspa
dc.contributor.advisorSaldarriaga Aristizábal, Pablo Andrésspa
dc.contributor.authorPiedrahita Jaramillo, Catalina
dc.coverage.spatialMedellín de: Lat: 06 15 00 N degrees minutes Lat: 6.2500 decimal degrees Long: 075 36 00 W degrees minutes Long: -75.6000 decimal degreeseng
dc.creator.degreeMagíster en Ciencias de Datos y Analíticaspa
dc.creator.emailcpiedrahij@eafit.edu.cospa
dc.date.accessioned2024-03-01T23:04:19Z
dc.date.available2024-03-01T23:04:19Z
dc.date.issued2023
dc.descriptionEste artículo propone la creación de una versión robusta de la distancia de Mahalanobis para el problema de identificación de valores atípicos, utilizando estimaciones robustas y no paramétricas para la matriz de covarianza, como la Tau de Kendall y la Desviación Absoluta Mediana (MAD), así como técnicas que mejoran la Propiedades numéricas de la matriz de covarianza para reducir el error durante cálculos numéricos como el Shrinkage de Ledoit y Wolf. El rendimiento de los métodos se evalúa mediante la simulación de datos normales independientes, datos normales correlacionados y conjuntos de datos reales y se compara con algunos métodos de la literatura. Los métodos propuestos logran un alto porcentaje de identificación correcta de valores atípicos y tienen una baja tasa de falsos positivos para ambos tipos de datos, particularmente en el caso de datos normales correlacionados.spa
dc.description.abstractThis paper proposes the creation of a robust version of the Mahalanobis distance for the outlier’s identification problem, using robust and non-parametric estimations for the covariance matrix, such as Kendall’s Tau and Median Absolute Deviation (MAD), as well as techniques that enhance the numerical properties of the covariance matrix to reduce error during numerical calculations like Ledoit and Wolf’s Shrinkage. The performance of the methods is evaluated through simulation of independent normal data, correlated normal data, and real data sets and compared with some methods from the literature. The proposed methods achieve a high percentage of correct identification of outliers and have a low false positive rate for both data types, particularly in the case of correlated normal data.spa
dc.identifier.ddc519.5 P613
dc.identifier.urihttps://hdl.handle.net/10784/33514
dc.language.isospaspa
dc.publisherUniversidad EAFIT
dc.publisher.departmentEscuela de Ciencias Aplicadas e Ingeniería. Área Computación y Analíticaspa
dc.publisher.placeMedellínspa
dc.publisher.programMaestría en Ciencias de los Datos y Analíticaspa
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccesseng
dc.rights.localAcceso abiertospa
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/deed.es
dc.subjectMahalanobis
dc.subjectAtípicos
dc.subjectNo paramétrico
dc.subjectCovarianza
dc.subject.keywordMahalanobisspa
dc.subject.keywordOutliersspa
dc.subject.keywordNon-parametricspa
dc.subject.keywordCovariancespa
dc.subject.keywordKendall’s Tauspa
dc.subject.keywordMADspa
dc.subject.keywordShrinkagespa
dc.subject.lembCIENCIA DE LA INFORMACIÓN
dc.titleDetecting Outliers with a Non-parametric estimation of the Mahalanobis distancespa
dc.typemasterThesiseng
dc.typeinfo:eu-repo/semantics/masterThesiseng
dc.type.hasVersionacceptedVersioneng
dc.type.localTesis de Maestríaspa
dc.type.spaArtículospa

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
Catalina_PiedrahitaJaramillo_2023.pdf
Tamaño:
2.09 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
No hay miniatura disponible
Nombre:
formulario_autorizacion_publicacion_obras.pdf
Tamaño:
384.44 KB
Formato:
Adobe Portable Document Format
Descripción:
Formulario autorización publicación obras
No hay miniatura disponible
Nombre:
carta_aprobacion_trabajo_grado_eafit.pdf
Tamaño:
108.44 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta aprobación trabajo de grado
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
2.5 KB
Formato:
Item-specific license agreed upon to submission
Descripción: