Análisis y predicción de la deserción de empleados : un caso de estudio en la industria de software colombiana

Resumen

The objective of this study is to carry out the analysis and prediction of the desertion of employees of a software company in Medellín, based on a private database that contains 19 characteristics of 1497 workers, where 900 are active in the company and the rest have left their job. In the first place, a descriptive and exploratory analysis was carried out, where it was found that there was some variables that did not contribute information to the model, such as: Type of identification, start date of the contract, among others, also in this part the correlation of some variables and proceeded to eliminate them from the set of descriptive characteristics of the problem, since that leaving them would be leaving redundant information in the model. Second, they trained 4 machine learning models (Niave Bayes, Random Forest, Decision Tree, Logistic Regression) and the results obtained by each were compared, in order to find the one that best fits the problem of labor desertion, in this step it was found that the best classifier of machine learning is a decision tree (Decision Tree) with 14 layers, since metrics such as its curve of learning and ROC curve gave better results than the other two trained models.

Descripción

El objetivo de este estudio es realizar el análisis y la predicción de la deserción de empleados de una compañía de software en Medellín, con base en una base de datos privada que contiene 19 características de 1497 trabajadores, donde 900 están activos en la empresa y el restante han abandonado su puesto de trabajo. En primer lugar, se realizó un análisis descriptivo y exploratorio, donde se encontró que había algunas variables que no aportaban información al modelo, como por ejemplo: Tipo de identificación, fecha de inicio de contrato, entre otras, también en esta parte se identificó la correlación de algunas variables y se procedió a eliminarlas del conjunto de características descriptivas del problema, ya que al dejarlas sería dejar información redundante en el modelo. En segundo lugar, se entrenaron 4 modelos de machine learning (Niave Bayes, Random Forest, Decision Tree, Logistic Regression) y se compararon los resultados obtenidos por cada uno, para así encontrar el que mejor se ajusta a la problemática de la deserción laboral, en este paso se encontró que el mejor clasificador de machine learning es un árbol de decisión (Decision Tree) con 14 capas, ya que métricas como su curva de aprendizaje y curva de ROC dieron resultados superiores al de los otros dos modelos entrenados.

Palabras clave

Deserción, Industria de software, Análisis exploratorio, Algoritmos de Machine Learning

Citación