Este proyecto realiza un análisis integral de los datos de un programa de fidelización de una aerolínea, combinando la actividad de vuelo de los clientes con sus perfiles demográficos. El objetivo es identificar patrones de comportamiento y evaluar la frecuencia de reservas mediante técnicas estadísticas y de visualización.
El análisis se ha estructurado en cuatro fases fundamentales:
Se trabajó con dos conjuntos de datos: Customer Flight Activity y Customer Loyalty History.
- Unión de Datos: Se agruparon las actividades de vuelo por
loyalty_number. - Tratamiento de Errores: Se corrigieron valores negativos en la columna
salarymediante valores absolutos. - Gestión de Nulos: Se imputaron los nulos en
salarycon la mediana (73.455), tras detectar una distribución asimétrica con outliers altos. - Estandarización: Los nombres de las columnas se normalizaron a minúsculas y sin espacios para mejorar la legibilidad del código.
Exploración de variables numéricas y categóricas:
- Correlaciones Clave: Se identificó una correlación perfecta (1.00) entre la distancia y los puntos acumulados, indicando un sistema de recompensas lineal basado en el recorrido.
- Identificación de Outliers: Mediante el Rango Intercuartílico (IQR), se detectaron valores atípicos significativos en
salaryyclv. - Perfil del Cliente Medio: Definido como una persona casada, con estudios universitarios (Bachelor), residente en Ontario y con tarjeta de nivel Star.
Respuestas visuales a preguntas estratégicas utilizando Seaborn y Matplotlib:
- Estacionalidad: El volumen de reservas aumenta notablemente en periodos vacacionales, con el pico máximo en julio.
- Nivel Educativo y Salario: Se confirmó una progresión donde el salario promedio aumenta con el nivel de estudios, destacando el grupo con Doctorado.
- Jerarquía de Fidelidad: La tarjeta Star es la más común, seguida de Nova y Aurora.
- Estado Civil: El 60% de los clientes están casados, manteniendo una paridad de género casi absoluta en todos los segmentos.
Análisis enfocado en determinar si el grado académico influye en la cantidad de vuelos reservados:
- Análisis Descriptivo: Se calcularon medias, desviaciones estándar y modas por grupo educativo.
- Segmentación Recurrente: Se analizó específicamente el comportamiento de los clientes habituales (vuelos > 0), donde la media de vuelos es superior a la general.
- Visualización Comparativa: Uso de
boxplotspara comparar la dispersión de reservas entre clientes habituales y no habituales según su educación.
- Python: Lenguaje de programación.
- Pandas & NumPy: Limpieza, transformación y análisis estadístico.
- Matplotlib & Seaborn: Creación de gráficos avanzados.