Publicación: On a Combination of Skewness and Kurtosis Matrices for Pro jection Pursuit Exploratory Cluster Analysis
Fecha
2025
Autores
Jaramillo Osorio, Esteban
TĆtulo de la revista
ISSN de la revista
TĆtulo del volumen
Editor
Universidad EAFIT
Resumen
Skewness and kurtosis are statistical measures critical for understanding distribu- tion characteristics, particularly in normality testing, clustering, and outlier detec-
tion. While kurtosis has been widely explored in the literature, skewness remains un- derutilized despite its potential for identifying asymmetrical patterns in data. Com- bining these measures could create a robust tool for exploratory data analysis (EDA).
This research proposes a novel approach by developing a convex combination of skew-
ness and kurtosis matrices. Using iterative procedures to maximize or minimize this combination, we aim to construct a matrix serving as a projection index for a projec-
tion pursuit algorithm. This matrix can identify clusters and outliers more effectively than either measure alone. To validate the methodology, experiments on artificial datasets and real-world data demonstrate the benefits of this combined approach
in detecting non-normal features, evaluating clustering performance, and enhancing outlier detection.
Descripción
La asimetrĆa y la curtosis son medidas estadĆsticas cruciales para comprender las caracterĆsticas de la distribución, en particular en las pruebas de normalidad, la agrupación en clĆŗsteres y la detección de valores atĆpicos. Si bien la curtosis se ha explorado ampliamente en la literatura, la asimetrĆa sigue siendo infrautilizada a pesar de su potencial para identificar patrones asimĆ©tricos en los datos. La combinación de estas medidas podrĆa crear una herramienta robusta para el anĆ”lisis exploratorio de datos (AED).
Esta investigación propone un enfoque novedoso mediante el desarrollo de una combinación convexa de matrices de asimetrĆa y curtosis. Mediante procedimientos iterativos para maximizar o minimizar esta combinación, buscamos construir una matriz que sirva como Ćndice de proyección para un algoritmo de bĆŗsqueda de proyecciones. Esta matriz puede identificar clĆŗsteres y valores atĆpicos con mayor eficacia que cualquiera de las medidas por separado. Para validar la metodologĆa, experimentos con conjuntos de datos artificiales y datos reales demuestran los beneficios de este enfoque combinado para detectar caracterĆsticas anormales, evaluar el rendimiento de la agrupación en clĆŗsteres y mejorar la detección de valores atĆpicos.