Saltar al contenido

M05- Churn Prediction: ¿Cómo Retengo a Mis Clientes? Machine Learning Aplicado a un Caso de Negocio

Tutora: Yanina Iberra
yaninaiberra@gmail.com

Descripción

Trabajaremos con un dataset de clientes de una plataforma de streaming de música para ayudar a predecir aquellos clientes que cancelarán la suscripción y poder con ello implementar alguna estrategia de marketing para retenerlos con anticipación a su posible abandono del servicio.

Este tema es interesante porque...

– Predecir la pérdida de clientes es fundamental para que las empresas puedan retenerlos de forma eficaz.

– Es más costoso adquirir nuevos clientes que retener los existentes. Por esta razón, las grandes empresas tratan de desarrollar modelos para predecir qué clientes tienen más probabilidades de dejar de serlo y tomar medidas en consecuencia.

– Buscaremos construir un modelo para predecir la probabilidad de que un cliente abandone la empresa analizando ciertas propiedades sobre la cuenta del usuario y los servicios contratados.

– Resulta primordial obtener una solución basada en datos que nos permita reducir las tasas de abandono y, en consecuencia, aumentar la satisfacción del cliente y los ingresos de la empresa.

Trataremos de responder algunas de las siguientes preguntas

– ¿Qué tan similares son los grupos de clientes que cancelan su suscripción de quiénes la mantienen?

– ¿Hay desbalance de clases? ¿Cómo puede solucionarse?

– ¿Cuáles son los factores que influyen en que un cliente cancele su suscripción?

– ¿Qué regiones son las que presentan menor/mayor cancelación de suscripciones?

– ¿Los errores que el usuario experimenta en la plataforma de streaming tiene algún impacto en las bajas del servicio? ¿Depende del tipo de dispositivo (Navegador Web, App)?

– ¿Cuál es la distribución mensual de interacción de los usuarios con la plataforma? Para denotar si son usuarios esporádicos o frecuentes. ¿Es posible identificar algún patrón en el comportamiento de los usuarios que cancelaron su suscripción?

– ¿Qué tiempo promedio de inactividad con la plataforma de música tienen los usuarios que han dado de baja su suscripción?

– ¿Qué métricas podemos utilizar para medir las predicciones obtenidas? ¿Qué métricas podemos mostrar al área de Marketing de la empresa dueña de la plataforma de streaming de música de modo que comprenda el resultado obtenido?

Datos

Si querés inspeccionar el conjunto de datos, lo encontrarás en el siguiente repositorio gitHub:
https://raw.githubusercontent.com/yaninaiberra/DiploDatos2022MentoriaChurnCasoDeNegocio/main/data/raw/mini_sparkify_event_data_sample.json

Si bien se muestra un sample de los datos. Durante la mentoría trabajaremos con un archivo más completo, que contiene cerca de 300 mil eventos de interacción de los clientes con la plataforma de streaming de música.

Hitos de la Mentoría

Entrega 20/05 – Práctico de análisis y visualización.
Durante esta primera etapa, se buscará familiarizarse con el dataset, analizar con qué datos contamos, en cantidad y calidad: indagando no sólo el tipo de cada dato si no su naturaleza, si son demográficos, económicos, información personal de los clientes, etc. Identificar la variable target que será aquella a predecir. ¿Tenemos suficientes datos históricos como para realizar predicciones?
Realizaremos visualizaciones para que mediante los gráficos podamos encontrar correlación o no entre algunas variables. Graficar distribuciones de los datos, algunos estadísticos como promedios e identificar valores atípicos o datos faltantes.
Entrega 17/06 – Práctico de análisis exploratorio y curación de datos.
El análisis exploratorio de los datos nos permitirá haber identificado valores faltantes y tomar acciones sobre ellos (¿Los eliminamos? ¿Los imputamos?).
¿Tenemos datos duplicados?
Indagar sobre las variables disponibles, ¿todos los datos son relevantes para el problema, o podemos prescindir de algunos? Ver la posibilidad de generar nuevas variables o aplicar alguna transformación sobre los datos existentes (como normalizar o estandarizar, aplicar un encoding numérico sobre variables categóricas).
También deberemos analizar los valores atípicos, para ver si realmente son atípicos o son casos excepcionales que deben tenerse en cuenta. ¿Qué porcentaje representan? ¿Los eliminamos o mantenemos cierto porcentaje de ellos (percentiles)?.
Entrega 24/06 – Video de presentación intermedia del proyecto y dataset
Entrega 29/07 – Práctico aprendizaje supervisado.
Se espera que se pueda analizar qué tipo de problema de aprendizaje automático queremos atacar, ¿Una regresión? ¿Un problema de clasificación? ¿Clasificación binaria o es un problema multiclase? Esto nos permitirá pensar qué tipos de modelos son adecuados para la predicción.
Una vez que contamos con un dataset “limpio”, comenzaremos con la etapa de preprocesamiento, en la que prepararemos los datos para ser insertados a nuestro modelo.
Generaremos un primer modelo baseline que nos servirá de punto de comparación con otros modelos más complejos.
Pensaremos cuáles métricas son apropiadas optimizar (Accuracy, F1-Score, Recall, Precision).
Realizaremos ajuste por hiperparámetros en diferentes modelos para intentar obtener mejores resultados.
Elección del o los mejores modelos, para una posible puesta en producción en la empresa dueña del servicio de streaming de música, para ayudar en la implementación de estrategias de marketing para intentar retener a clientes que puedan llegar a cancelar sus suscripciones.
Entrega 26/08 – Práctico aprendizaje no supervisado.
Se analizarán los datos de los usuarios de la plataforma de streaming de música para identificar grupos de clientes “similares”, aplicando modelos de clústering. ¿Bajo qué características pueden agruparse esos usuarios?
Tal vez la empresa pueda aplicar distintas estrategias de marketing para estos diferentes grupos identificados.
Entrega 23/09 – Video de presentación final de mentoría.
Jornadas 11/11 y 12/11 – Presentación de mentorías

Integrantes del grupo 1
Micael Marquez - María Laura Mantovani
Fanny Ruales - Rodrigo Hernán Ruiz.
Integrantes del grupo 2
Agustina Quirós - Natalia Grasselli
Natalia Tassin - Rodrigo Pizarro.