facilita: Mirko Panozzo
Motivación
¿Te imaginás trabajando en dar soluciones a problemáticas reales? Te proponemos clasificar items de Mercado Libre según sus dimensiones sin tener acceso a más información que la publicaciones mismas y sus envíos previos. Este trabajo apunta a que los alumnos puedan aprender a manipular datasets del sitio de e-Commerce más grande de Latinoamérica para poder extraer información relevante de los mismos y entrenar modelos que permitan clasificar publicaciones según los tamaños de los ítems de las mismas.
Descripción del problema o dataset
Sobre la problemática: desde mediados de 2018 el principal correo de Brasil empezó a imponer una multa de N reales a los envíos con alguna de sus dimensiones mayor a M cm. El problema a resolver consta de decidir, mediante modelos de ML, a qué publicaciones se le debería activar Mercado Envíos y a cuáles no . 1
Sobre los datos: el dataset consta de un muestreo aleatorio de 500 mil registros de envíos de Mercado Libre Brasil durante 2018, con variables categóricas y numéricas. Para cada envío se cuenta con información del item enviado (título, atributos, condición de usado o nuevo, etc.) y del envío en sí (peso, altura, largo, ancho, tipo de envío, etc.).
Práctico de Análisis y Visualización
Objetivo y alcance: aprender a comunicar resultados sobre el análisis del dataset. Manejo de librerías para generación de gráficos que expliquen los datos, la correlación e independencia entre variables, etc.
Método: diagramar una comunicación en formato textual o interactivo describiendo aspectos de interés del dataset. La comunicación debe estar apuntada a un público técnico pero sin conocimiento del tema particular, como por ejemplo, stakeholders del proyecto que entienden la problemática solo a nivel de impacto económico. Se evaluarán los siguientes aspectos:
● El informe debe contener un mensaje claro y presentado de forma concisa.
● Los gráficos deben aplicar los conceptos de percepción visual vistos en clase.
● Se debe describir o estimar la significancia estadística de su trabajo.
Estructura del informe: El informe debe contener una descripción del dataset, los gráficos que el equipo considere pertinentes para explicarlo, un análisis de estos gráficos y conclusiones sobre el mismo.
Fecha de entrega primera versión: 28 de abril
Fecha de entrega versión final: 3 de mayo