Publicación: Análisis comparativo de modelos predictivos para la estimación de PM2.5 : un enfoque basado en aprendizaje automático y predicción conformal
Fecha
2024
Autores
Camelo Valera, Matías
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
Fine particulate matter (𝑃𝑀2.5pollution poses a significant environmental and public health challenge, requiring accurate predictive models for its monitoring and control. This study compares different machine learning approaches, including Linear Regression, Random Forest, and XGBoost, with and without the inclusion of mobility variables, to estimate 𝑃𝑀2.5 levels. Additionally, inductive conformal prediction is implemented to quantify uncertainty in the estimates and provide confidence intervals with 𝛼=0.05.
The results show that while XGBoost experiences performance deterioration during training when mobility variables are included, it achieves the best validation performance with the lowest mean absolute error and the highest coefficient of determination. Conformal prediction enabled the establishment of confidence intervals with 89.26% coverage, close to the expected 95%, ensuring model reliability across different spatial and temporal scenarios.
In conclusion, the use of machine learning models combined with advanced validation and calibration techniques, such as conformal prediction, enhances the accuracy and reliability of 𝑃𝑀2.5 estimation. However, the quality of input variables, particularly mobility-related data, remains a challenge, highlighting the need to incorporate meteorological information and improve data resolution. These findings contribute to the development of more reliable predictive tools for environmental management and air quality policy decision-making.
Descripción
La contaminación por material particulado fino (𝑃𝑀2.5) representa un desafío ambiental y de salud pública, requiriendo modelos predictivos precisos para su monitoreo y control. En este trabajo, se comparan diferentes enfoques de aprendizaje automático, incluyendo Regresión Lineal, Random Forest y XGBoost, con y sin la inclusión de variables de movilidad, para estimar los niveles de 𝑃𝑀2.5. Además, se implementa la predicción conformal inductiva para cuantificar la incertidumbre en las estimaciones y proporcionar intervalos de confianza con 𝛼=0.05.
Los resultados evidencian que XGBoost, pese a experimentar un deterioro en la fase de entrenamiento al incluir variables de movilidad, logra el mejor desempeño en validación con un menor error absoluto medio y mayor coeficiente de determinación. La predicción conformal permitió establecer intervalos de confianza con una cobertura del 89.26%, cercana al 95% esperado, lo que garantiza la fiabilidad del modelo en distintos escenarios espaciales y temporales.
En conclusión, el uso de modelos de aprendizaje automático en combinación con técnicas avanzadas de validación y calibración, como la predicción conformal, permite mejorar la precisión y confiabilidad en la estimación de 𝑃𝑀2.5. Sin embargo, la calidad de las variables de entrada, especialmente las de movilidad, sigue representando un desafío, lo que sugiere la necesidad de incorporar información meteorológica y mejorar la resolución de los datos. Estos hallazgos contribuyen al desarrollo de herramientas predictivas más fiables para la gestión ambiental y la toma de decisiones en políticas de calidad del aire.