Saltar al contenido

M18- Análisis de películas.

Tutor: Luciano Mantovani

Descripción

Quien se considera amante del cine y de los datos no podría dejar pasar la oportunidad de encontrar los patrones existentes en la industria del cine. ¿Qué revela el presupuesto, las ganancias, el rating, la productora, el elenco, el género, la duración, la popularidad, el idioma original, las palabras clave e incluso más atributos que reúnen más de 45,000 películas?
En este set de datos encontraremos atributos numéricos y categóricos que nos permitirán realizar análisis de diversas formas, ya que cada uno de ellos nos cuenta una historia diferente. Y es que al fin de cuentas, todo se tata de eso! Así que, en esta mentoría, los voy a invitar a contar historias a partir de los datos de las películas que tanto amamos.

La naturaleza de estos datos es fácil de entender, pero analizarlos requerirá algún esfuerzo de trabajo en código, por lo que se recomienda algo de solvencia en Python y Pandas para sacarle el provecho máximo y extraer información valiosa de estos datos. Utilizaremos técnicas de manipulación que perfeccionaremos y adaptaremos según las necesidades e ideas que surjan de todos ustedes. Aunque el mentor establecerá las pautas, este trabajo será colaborativo y se considerarán todas las ideas creativas que surjan de los grupos.

 

Sobre los informes
En todos los prácticos se requerirá un análisis descriptivo y detallado de todas las visualizaciones, así como los pasos realizados para obtener la información y las conclusiones obtenidas. Debe considerarse siempre como un reporte: ¿Qué historia cuentan los datos? El código y los gráficos por sí solos no son suficientes para describir un proceso. Por lo tanto, la verborragia es completamente bienvenida. En cuanto a las visualizaciones, la intención del gráfico debe ser clara y su existencia debe estar justificada. Cada vez que se agregue un gráfico al reporte, se debe preguntar: ¿qué se quiere comunicar?

Este tema es interesante porque...

Da la oportunidad de estudiar un conjunto de datos con distintos tipos de atributos que permiten diferentes tipos de análisis. Se puede estudiar el presupuesto de una película tanto como su elección de actores, puntajes, géneros y distintos aspectos que conforman el éxito de una película.
Las películas son de interés general, y explorar este conjunto de datos da la oportunidad de profundizar desde un conocimiento superficial a un análisis más profundo del comportamiento de la industria del cine.
El análisis de este conjunto de datos también da la oportunidad de trabajar en nuestra capacidad para contar historias. Los datos no hablan por sí solos a menos que se cuente una buena historia. Al ser datos que podemos entender todos, nos da el potencial para alcanzar una comunicación efectiva.
Vamos a usar técnicas de Machine Learning para confirmar patrones conocidos e intentar descubrir patrones o temáticas ocultas que incluso las mismas descripciones de las películas no comunican.

Trataremos de responder algunas de las siguientes preguntas

– ¿Qué relación existe entre los atributos? ¿Se pueden identificar patrones bien definidos? ¿Existen outliers?
– ¿Qué factores hacen que una película sea exitosa?
– ¿Existen temáticas o géneros ocultos en películas que no se comuniquen explícitamente?
– ¿Se pueden usar los ratings para descubrir nichos que no conocíamos?
– ¿Se pueden reconocer temáticas con las palabras clave y las descripciones?

Integrantes del grupo 1
Horacio Rueda - Joaquín Aguirre -
Candelaria Bosch - Paola Jornet.
Integrantes del grupo 2
Maycol Skrundz - Sebastian Montironi - Adrián Giaquinta.