19 mayo, 2018

Exploración y Curación de datos

null

 

Recursos

Pueden encontrar el material para trabajar en el repositorio https://github.com/DiploDatos/AnalisisyCuracion. Durante esta materia estaremos utilizando algunas de las tablas de:

  • El conjunto de datos pre-procesado sobre estimación de precios de ventas de propiedades en Melbourne, Australia, disponible en la plataforma Kaggle.
  • Un conjunto de datos de scrapings del sitio AirBnb para la ciudad de Melbourne, Australia, 2018, disponibilizado por Tyler Xie, a través de la plataforma Kaggle.

Una copia de las tablas necesarias está disponible a través de los servidores de la UNC, que puede acceder desde las notebooks.

Clase 1

Clase 2

Clase 3

 

Clase 4

 

Criterios de evaluación

Se trabajarán en grupos de 4 a 5 personas (obligatoriamente), son los mismos grupos que la materia anterior, y en casos especiales pueden cambiarse a consideración de la Coordinadora de Prácticos, Valeria Rulloni.

El trabajo práctico entregable tiene dos partes. La primera puedan completarla después de las primeras dos clases. Los trabajos deben ser entregados en notebooks a través de un repositorio (github o bitbucket), que puede ser público o privado. Se recomienda que dividan el código en distintas notebooks si es muy extenso. La notebook debe ser legible, y tener las respuestas en lenguaje natural. No es suficiente con calcular los valores y dejarlos por ahí. Las interpretaciones de los resultados son lo más importante.

Deben copiar el link y ponerlo en una planilla a definir una vez que los grupos estén conformados, para que podamos corregirlos.

El repositorio debe ser autocontenido, con indicaciones de librerías a instalar y links para descargar los datos utilizados.

Docentes

 

Teórico con:

  • Georgina Flesia
  • Ariel Wolfmann

Práctico con:

    • Aldana González Montoro
    • Rocio Fonseca
    • Nehuen González Montoro
    • Mario Agustín Sgró
    • Alejandro Garcia
    • Facundo Godoy
    • Josefina Meirovich
    • Laura Montes

Bibliografía Complementaria

  • Capítulos 2 y 3 de VanderPlas, J. (2016). Python Data Science Handbook: Essential Tools for Working with Data (1st ed.). O’Reilly Media. Acceso gratuito: https://jakevdp.github.io/PythonDataScienceHandbook/
  • Capítulo 2 de Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2nd ed.). O’Reilly Media.

  • SQL Cookbook 2nd edition. Antony Molinaro, Robert de Graaf. O’Reilly Media.
  • SQLite Tutorial