Assessing the effects of Multivariate Functional outlier identification and sample robustification on identifying critical PM2.5 air pollution episodes in Medellín, Colombia
Fecha
2022
Autores
Roldán Alzate, Luis Miguel
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
Identification of critical episodes of environmental pollution, both as a outlier identification problem and as a classification problem, is a usual application of multivariate functional data analysis. This article addresses the effects of robustifying multivariate functional samples on the identification of critical pollution episodes in Medellín, Colombia. To do so, it compares 18 depth-based outlier identification methods and highlights the best options in terms of precision through simulation. It then applies the two methods with the best performance to robustify a real dataset of air pollution (PM2.5 concentration) in the Metropolitan Area of Medellín, Colombia and compares the effects of robustifying the samples on the accuracy of supervised classification through the multivariate functional DD-classifier. Our results show that 10 out of 20 methods revised perform better in at least one kind outliers. Nevertheless, no clear positive effects of robustification were identified with the real dataset.
Descripción
La identificación de datos atípicos de contaminación ambiental, tanto como un problema de identificación de atípicos como bajo los problemas de clasificación es una aplicación usual del análisis de datos funcionales multivariados. El artículo da cuenta de los efectos de la robustificación de muestras funcionales multivariadas sobre la identificación de episodios críticos de polución en Medellín, Colombia. Para hacerlo, compara 18 métodos de identificación de atípicos basados en profundidades y resalta las mejores opciones en términos de precisión a través de simulación. Después, aplica los dos métodos con mejor desempeño a la robustificación de una base de datos real de contaminación del aire en el área metropolitana de MEdellín, Colombia y compara los efectos de robustificar las muestras sobre la precisión de la clasificación supervisada. Los resultados muestran que 10 de los 20 métodos revisados se desempeñan mejor en al menos un tipo de atípicos. Sin embargo, no se evidencian resultados positivos de la robustificación en la base de datos real.