facilita: Bruno Magnano Marinelli
Motivación
Los alumnos que decidan optar por este práctico, podrán a adquirir las bases necesarias para crear modelos que implementen Procesamiento Natural del Lenguaje para resolver problemas de clasificación automática simples y de mayor complejidad, así como de análisis de sentimiento, las cuales son áreas muy demandadas en la ciencia de datos.
Descripción del problema o dataset
Trabajemos con un Dataset que describe las encuestas de satisfacción realizadas por una empresa automotriz a sus usuarios luego de prestado un servicio. El mismo fue elaborado por el área de calidad y cada registro contiene la información concerniente a una encuesta telefónica que ha generado una “alerta de calidad”, incluyendo también el texto de los diálogos entre las partes.
Contamos con más de 11k registros, con aprox. 25 features de tipo variado (principalmente categóricos), brindando información sobre la encuesta en sí, sobre la alerta generada y su gestión, y sobre el servicio bajo análisis. Por cuestiones de privacidad algunos de los datos fueron anonimizados.
Práctico de Análisis y Visualización
Objetivo y alcance: Generar un EDA (Exploratory Data Analysis) aplicando algunos de los conceptos vistos en el teórico para desarrollar análisis estadísticos, análisis de probabilidades, visualización de datos para analizar frecuencias y temporalidades, análisis de correlaciones de variables identificando variables dependientes e independientes, análisis de outliers, entre otros.
El práctico contendrá una primera parte cuyo foco será describir/visualizar los datos del dataset, y una segunda parte cuyo eje estará en inferir cosas, generar hallazgos (insights) y hacernos preguntas que puedan ser respondidas con algunos de los métodos vistos en el teórico.
El enunciado (la información mínima a presentar) será adaptado a medida una vez realizada la primera reunión con el equipo de trabajo, para adecuarse a los intereses, skills y expectativas de los integrantes del grupo.
Método: Se recomienda (no excluyente) utilizar entre otras librerías matplotlib y seaborn para visualización de los datos; numpy para los análisis estadísticos descriptivos; sklearn para análisis de correlaciones entre variables y pandas para manipular el dataset.
Se evaluarán los siguientes puntos:
- Que se apliquen los conceptos vistos en el teórico.
- Que el entregable (informe) no sea una notebook. Debe tener un mensaje claro y debe presentarse en un formato legible para cualquier tipo de stakeholder.
- Que los cálculos estadísticos sean utilizados como herramienta para responder preguntas.