Análisis y predicción de la deserción de empleados : un caso de estudio en la industria de software colombiana
Fecha
2022
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad EAFIT
Resumen
The objective of this study is to carry out the analysis and prediction of the desertion of employees of a
software company in Medellín, based on a private database that contains 19 characteristics of 1497 workers, where 900 are active in the company and the rest have left their job.
In the first place, a descriptive and exploratory analysis was carried out, where it was found that there was
some variables that did not contribute information to the model, such as: Type of identification,
start date of the contract, among others, also in this part the correlation of some
variables and proceeded to eliminate them from the set of descriptive characteristics of the problem, since
that leaving them would be leaving redundant information in the model. Second, they trained
4 machine learning models (Niave Bayes, Random Forest, Decision Tree, Logistic Regression) and
the results obtained by each were compared, in order to find the one that best fits the
problem of labor desertion, in this step it was found that the best classifier of machine
learning is a decision tree (Decision Tree) with 14 layers, since metrics such as its curve of
learning and ROC curve gave better results than the other two trained models.
Descripción
El objetivo de este estudio es realizar el análisis y la predicción de la deserción de empleados de una
compañía de software en Medellín, con base en una base de datos privada que contiene 19 características de 1497 trabajadores, donde 900 están activos en la empresa y el restante han abandonado su puesto de trabajo.
En primer lugar, se realizó un análisis descriptivo y exploratorio, donde se encontró que había
algunas variables que no aportaban información al modelo, como por ejemplo: Tipo de identificación,
fecha de inicio de contrato, entre otras, también en esta parte se identificó la correlación de algunas
variables y se procedió a eliminarlas del conjunto de características descriptivas del problema, ya
que al dejarlas sería dejar información redundante en el modelo. En segundo lugar, se entrenaron
4 modelos de machine learning (Niave Bayes, Random Forest, Decision Tree, Logistic Regression) y
se compararon los resultados obtenidos por cada uno, para así encontrar el que mejor se ajusta a la
problemática de la deserción laboral, en este paso se encontró que el mejor clasificador de machine
learning es un árbol de decisión (Decision Tree) con 14 capas, ya que métricas como su curva de
aprendizaje y curva de ROC dieron resultados superiores al de los otros dos modelos entrenados.
Palabras clave
Deserción, Industria de software, Análisis exploratorio, Algoritmos de Machine Learning