Saltar al contenido

Materia obligatoria: Exploración y Curación de Datos

Recursos

Pueden encontrar el material para trabajar en el repositorio https://github.com/DiploDatos/AnalisisyCuracion. Durante esta materia estaremos utilizando algunas de las tablas de:

El conjunto de datos pre-procesado sobre estimación de precios de ventas de propiedades en Melbourne, Australia, disponible en la plataforma Kaggle.

Un conjunto de datos de scrapings del sitio AirBnb para la ciudad de Melbourne, Australia, 2018, disponibilizado por Tyler Xie, a través de la plataforma Kaggle.

Una copia de las tablas necesarias está disponible a través de los servidores de la UNC, que puede acceder desde las notebooks.

Contenido orientativo de las clases que se darán durante 2023

Clase 1

Filminas

Clase 1.1

Notebook

01. Exploracion.ipynb

Clase 2
Clase 3
Clase 4
Criterios de evaluación

Se trabajarán en grupos de 4 a 5 personas (obligatoriamente), son los mismos grupos que la materia anterior, y en casos especiales pueden cambiarse a consideración de la Coordinadora de Prácticos, Valeria Rulloni.

El trabajo práctico entregable tiene dos partes. La primera puedan completarla después de las primeras dos clases. Los trabajos deben ser entregados en notebooks a través de un repositorio (github o bitbucket), que puede ser público o privado. Se recomienda que dividan el código en distintas notebooks si es muy extenso. La notebook debe ser legible, y tener las respuestas en lenguaje natural. No es suficiente con calcular los valores y dejarlos por ahí. Las interpretaciones de los resultados son lo más importante.

Deben copiar el link y ponerlo en una planilla a definir una vez que los grupos estén conformados, para que podamos corregirlos.

El repositorio debe ser autocontenido, con indicaciones de librerías a instalar y links para descargar los datos utilizados.

Equipo docente

Docentes del Teórico

Georgina Flesia
Ariel Wolfmann

Docentes del Práctico

Aldana González Montoro
Rocio Fonseca
Nehuen González Montoro
Mario Agustín Sgró
Alejandro Garcia
Facundo Godoy
Josefina Meirovich
Laura Montes

Bibliografía complementaria

Capítulos 2 y 3 de VanderPlas, J. (2016). Python Data Science Handbook: Essential Tools for Working with Data (1st ed.). O’Reilly Media. Acceso gratuito: https://jakevdp.github.io/PythonDataScienceHandbook/

Capítulo 2 de Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2nd ed.). O’Reilly Media.

SQL Cookbook 2nd edition. Antony Molinaro, Robert de Graaf. O’Reilly Media.

SQLite Tutorial.