Saltar al contenido

Ciencia de Datos aplicada en la Industria Retail

facilita: Maximiliano Armesto

Motivación

Uno de los desafíos de modelar datos de esta industria se presenta debido a la necesidad de tomar decisiones basadas en operaciones históricas. Se busca la definición de estrategias y toma de decisiones, en base al análisis y procesamiento de los datos históricos disponibles, para el cumplimiento de un objetivo, como lo puede ser aumento de la rentabilidad del negocio/mejora del servicio prestado al cliente. El objetivo de este proyecto es que el estudiante logre identificar y aplicar diferentes técnicas de análisis/procesamiento de los datos que generen información valiosa para un negocio que se desarrolla en esta industria.

Descripción del problema o dataset

Contenido

Se provee de datos históricos de ventas de 45 tiendas localizadas en diferentes regiones, cada tienda contiene un número determinado de departamentos. Cada compañía además organiza eventos de rebajas a lo largo del año. Estas rebajas preceden a feriados destacados como lo son: el Super Bowl, el Día del Trabajo, Día de Acción de Gracias y Navidad. Las semanas que incluyen estos feriados tienen un peso 5 veces mayor que las que no.

Los datos fueron extraídos de un Dataset proveniente de Kaggle (cuyo link se incluye en el notebook). Al dataset original se le hicieron ciertas modificaciones con el objetivo que sea apto para la materia “Análisis y Curación”, además se le agregó el archivo Users con el objetivo que el estudiante pueda construir un sistema de recomendación en la materia “Aprendizaje No Supervisado”.

El contenido de los cuatro archivos (Stores, Users, Features y Sales) se presenta a continuación:

Stores (45 samples)

Información anónima de las 45 tiendas, incluye tipo y tamaño de las mismas.

Users (50 samples)

Lista de usuarios y las tiendas que frecuentan.

Features (8190 samples)

Contiene información adicional relacionada a las tiendas, la localidad y actividad regional para las fechas dadas.

Store: el número de tienda.

Date: la semana correspondiente.

Temperatura: temperatura promedio de la región.

Fuel Price: costo del combustible en la región.

Markdown 1-5: datos anónimos relacionados a rebajas promocionales. Esta información está sólo disponible a partir de Noviembre del 2011 y no está disponible para todas las tiendas todo el tiempo. Lo valores faltantes están marcados como NA.

CPI: índice de precios al consumidor.

Unemployment: tasa de desempleo.

IsHoliday: si la semana contiene al menos un día feriado.

Sales (425796 samples)

Datos históricos de ventas, cubren desde el 05-02-2010 hasta el 01-11-2012. Incluye los siguientes campos:

Store: el número de tienda.

Dept: el número de departamento.

Date: la fecha correspondiente a la transacción.

Weekly_Sales: ventas para el departamento dado en la tienda correspondiente.

IsHoliday: indica si corresponde a una semana con días feriados o no.

Puntos interesantes a tratar:

  • Predicción de ventas futuras (detección de altas y bajas), análisis de estacionalidad de los datos.
  • Segmentación de las ventas en base a las características de su contexto.
  • Sistema de recomendación de tiendas para los usuarios.
  • Análisis del efecto de las rebajas en las ventas para las distintas tiendas.
  • Análisis del impacto de los feriados en las ventas.
  • Análisis de correlación entre las diferentes variables provistas y las ventas semanales, análisis del impacto que las mismas causan.

Dirección del notebook: https://github.com/maxiarmesto/retail_data_analytics

Práctico de Análisis y Visualización

Objetivo y alcance: luego de la realización de este práctico, se espera que los estudiantes hayan comprendido conceptos estadísticos básicos y hayan desarrollado intuiciones sobre sus características, en particular sobre su rol en la ciencia de datos y el aprendizaje automático. Se pondrá especial énfasis en que puedan analizar en qué situaciones es conveniente aplicar la estadística inferencial o descriptiva, o analizar la misma desde una perspectiva probabilística.

Adicionalmente, se espera que puedan internalizar de manera productiva el concepto de comunicar datos de manera sencilla, los cuales por sí solos representan muy poco.

Se busca que el estudiante pueda analizar los datos aplicando los conceptos aprendidos en la materia, y pueda expresar los resultados de la mejor manera, buscando producir un impacto positivo sobre el receptor de los mismos. Además se espera que el estudiante sea capaz de resolver preguntas de interpretación sobre los datos en cuestión a través de la aplicación de técnicas que él crea correspondiente.

Algunos de los puntos interesantes de aplicación son:

  • Cálculo de media, moda, mediana y desviación estándar sobre una o más variables.
  • Distribución de los ejemplos con respecto a las diferentes clases.
  • Análisis de outliers.
  • Correlación entre variables/Análisis de independencia (tanto para variables numéricas como categóricas). A través de este análisis se puede ver el impacto de cada variable sobre las ventas semanales y de esta manera determinar cuáles son las variables importantes a considerar.
  • Visualización de las ventas con respecto al tiempo para cada tienda en un determinado departamento.
  • Visualización de las ventas totales de cada tienda.
  • Porcentaje que representan las rebajas sobre las ventas totales para una tienda.

Método: se recomienda para el análisis estadístico descriptivo el uso de las herramientas que se incluyen en la librería numpy de Python para tal fin (como lo son cálculo de media, moda, mediana, desviación estándar). Para la correlación entre variables se recomienda usar las herramientas de correlación brindadas por sklearn o numpy, en caso de variables categóricas se deberán implementar los métodos que correspondan (como lo es la prueba  chi cuadrado). Se espera que los estudiantes utilicen herramientas como lo son seaborn o matplotlib para la visualización de datos.

Se evaluarán los siguientes aspectos:

  • El informe debe contener un mensaje claro y presentado de forma concisa.
  • Los estadísticos utilizados como medio para responder a las preguntas de interpretación planteadas en la consigna.
  • Aplicación de los conceptos teóricos adquiridos.
  • Los gráficos deben aplicar los conceptos de percepción visual vistos en clase.
  • Conclusiones a las que se haya llegado a través del análisis de los datos y su posible impacto a la hora de aplicarlo en la industria.