19 mayo, 2018

Exploración y Curación de datos

null

 

Recursos

Pueden encontrar el material para trabajar en el repositorio https://github.com/DiploDatos/AnalisisyCuracion. Durante esta materia estaremos utilizando algunas de las tablas de:

  • El conjunto de datos pre-procesado sobre estimación de precios de ventas de propiedades en Melbourne, Australia, disponible en la plataforma Kaggle.
  • Un conjunto de datos de scrapings del sitio AirBnb para la ciudad de Melbourne, Australia, 2018, disponibilizado por Tyler Xie, a través de la plataforma Kaggle.

Una copia de las tablas necesarias está disponible a través de los servidores de la UNC, que puede acceder desde las notebooks.

Clase 1

Clase 2

Clase 3

Clase 4

Criterios de evaluación

Se trabajarán en grupos de 4 a 5 personas (obligatoriamente). Les comunicaremos las instrucciones para anotarse por slack. Pueden ser los mismos grupos que la materia anterior, o pueden cambiarse si desean.

El trabajo práctico entregable tiene dos partes. La primera puedan completarla después de las primeras dos clases. Los trabajos deben ser entregados en notebooks a través de un repositorio (github o bitbucket), que puede ser público o privado. Se recomienda que dividan el código en distintas notebooks si es muy extenso. La notebook debe ser legible, y tener las respuestas en lenguaje natural. No es suficiente con calcular los valores y dejarlos por ahí. Las interpretaciones de los resultados son lo más importante.

Deben copiar el link y ponerlo en una planilla a definir una vez que los grupos estén conformados, para que podamos corregirlos.

El repositorio debe ser autocontenido, con indicaciones de librerías a instalar y links para descargar los datos utilizados.

Docentes

  • Georgina Flesia
  • Milagro Teruel
  • Aldana González Montoro
  • Juan Nehuen González Montoro
  • Mario Agustín Sgró
  • Rocío Fonseca

Bibliografía Complementaria

  • Capítulos 2 y 3 de VanderPlas, J. (2016). Python Data Science Handbook: Essential Tools for Working with Data (1st ed.). O’Reilly Media. Acceso gratuito: https://jakevdp.github.io/PythonDataScienceHandbook/
  • Capítulo 2 de Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2nd ed.). O’Reilly Media.