Este proyecto de análisis de datos de Recursos Humanos tiene como objetivo averiguar por qué se han marchado los empleados de la empresa y proporcionar insights valiosos para mejorar la retención del talento.
El análisis se basa en un dataset de recursos humanos que contiene información sobre empleados activos y desvinculados, incluyendo variables demográficas, laborales, de satisfacción y compensación.
- Identificar los factores principales que influyen en la desvinculación de empleados
- Analizar patrones y correlaciones en los datos de recursos humanos
- Crear visualizaciones que faciliten la comprensión de los hallazgos
- Proporcionar recomendaciones basadas en datos para mejorar la retención del talento
HR RAW DATA.csv
: Dataset original sin procesarHR_RAW_v2.csv
: Dataset después de la limpieza básicaHR_RAW_v3.csv
: Dataset final procesado con todas las transformaciones aplicadasTabla columnas.png
: Imagen de referencia con información sobre las columnas
Archivo: PARTE-1_project-da-promo-52-modulo-3-team-4-EDA.ipynb
Contenido:
- Exploración inicial del dataset original
- Análisis de la estructura y dimensiones de los datos
- Identificación de tipos de datos y valores únicos
- Detección de problemas en los datos (valores nulos, inconsistencias, etc.)
- Función personalizada
eda_basico()
para análisis sistemático
Principales hallazgos:
- Dataset con 1,614 registros y 41 columnas
- Múltiples problemas de calidad de datos identificados
- Necesidad de normalización y limpieza extensiva
Archivo: PARTE-2_project-da-promo-52-modulo-3-team-4-LIMPIEZA.ipynb
Contenido:
- Renombrado de columnas al español con nomenclatura normalizada
- Eliminación de columnas redundantes o innecesarias (7 columnas eliminadas)
- Transformación de tipos de datos:
- Conversión de edades en texto a números
- Limpieza de símbolos monetarios y conversión a float
- Normalización de valores categóricos
- Corrección de valores negativos (distancias convertidas de millas a km)
- Homogeneización de texto (mayúsculas a minúsculas)
- Guardado del dataset limpio como
HR_RAW_v2.csv
Archivo: PARTE-3_project-da-promo-52-modulo-3-team-4-NULOS.ipynb
Contenido:
- Análisis detallado del porcentaje de valores nulos por columna
- Estrategias de imputación diferenciadas:
- Columnas categóricas: Imputación con valores lógicos ("non-travel", "full time", "ns/nc")
- Columnas numéricas: Uso de moda, mediana, KNN Imputer según el caso
- Traducción completa de valores al español para mejor interpretación
- Renombrado final de columnas para visualizaciones
- Generación del dataset final
HR_RAW_v3.csv
completamente procesado
Técnicas aplicadas:
- KNN Imputer para variables continuas correlacionadas
- Simple Imputer con estrategia de mediana
- Imputación manual basada en conocimiento del dominio
Archivo: PARTE-4_project-da-promo-52-modulo-3-team-4-VISUALIZACION.ipynb
Contenido:
- Definición de paleta de colores corporativos
- Prueba de hipótesis sobre las columnas numéricas
- Gráfico 1: Comparación de variables emocionales (satisfacción y compromiso)
- Gráfico 2: Análisis de historia laboral mediante boxplots
- Gráfico 3: Relación entre antigüedad y tiempo con el mismo responsable
- Gráfico 4: Análisis de conciliación laboral por tipo de jornada
- Gráfico 5: Comparación entre evaluación de desempeño e incremento salarial
- Perfil del empleado desvinculado: Análisis demográfico detallado
- BONUS: Inserción de datos en SQL
Principales insights:
- Empleados desvinculados muestran menor satisfacción en todas las dimensiones
- Menor antigüedad y experiencia laboral en el grupo desvinculado
- Perfil típico: hombre de 33-34 años con menor satisfacción en conciliación
Archivos: main.py
funciones.py
graficos.py
load_sql.py
HR RAW DATA.csv
HR LIMPIO.csv
Contiene toda la información indicada en todos los puntos anteriores en formato python.
- Python 3.x
- Pandas: Manipulación y análisis de datos
- NumPy: Operaciones numéricas
- Matplotlib: Visualización de datos
- Seaborn: Visualizaciones estadísticas avanzadas
- Scikit-learn: Algoritmos de imputación (KNNImputer, SimpleImputer)
El dataset final procesado contiene:
- 1,614 registros de empleados
- 34 columnas después de la limpieza
- 0 valores nulos (totalmente imputado)
- Datos completamente en español para facilitar interpretación
- Tipos de datos optimizados para análisis
- Variables demográficas: edad, género, estado civil
- Variables laborales: departamento, puesto, antigüedad
- Variables de satisfacción: trabajo, relaciones, conciliación
- Variables de compensación: salario, incrementos, beneficios
- Factor Crítico: La satisfacción laboral en múltiples dimensiones es significativamente menor en empleados desvinculados
- Perfil de Riesgo: Empleados con menor antigüedad y menor satisfacción en conciliación laboral
- Reconocimiento: El sistema de evaluación y compensación funciona correctamente
- Demografía: Mayor proporción de hombres en el grupo desvinculado (62%)
El proyecto sigue metodología Agile/Scrum con las siguientes fases:
- Exploración → Comprensión inicial de los datos
- Limpieza → Preparación y normalización
- Imputación → Gestión de valores faltantes
- Visualización → Análisis y presentación de insights
- Conclusiones → Recomendaciones para la empresa
Equipo 4 - Promoción 52 - Módulo 3
- Proyecto desarrollado como parte del programa de Data Analytics
- Implementación de modelos predictivos de rotación
- Desarrollo de dashboard interactivo
- Creación de sistema ETL automatizado
- Diseño de base de datos optimizada para análisis de HR
Este proyecto demuestra el poder del análisis de datos para la toma de decisiones estratégicas en Recursos Humanos, proporcionando insights accionables para mejorar la retención del talento.