facilita: Mario Ferreyra
Motivación
El fútbol es un deporte que genera pasiones en todo el mundo, moviendo multitudes de personas.
Un partido de fútbol puede generar unos ocho millones de datos, muchos de los cuales son imperceptibles para el ojo humano.
Varios de estos datos pueden ayudar a tomar decisiones correctas. Conocer datos en tiempo real en medio de un partido sería casi como tener la bola de cristal para un técnico.
Esto genera que la mayoría de los equipos de fútbol almacenen estos datos
Descripción del problema o dataset
Para este trabajo se van a proveer 3 datasets relacionados al ámbito futbolístico europeo, a continuación detallaremos brevemente cada uno de estos:
- football_match.csv : Contiene datos de los partidos que ocurrieron entre el 2008 y el 2016, en donde podemos encontrar los equipos involucrados, los goles de cada uno, la fecha del partido, la liga y temporada a la que corresponde, entre otros datos.
El este archivo contiene 25979 registros. - football_team.csv : Contiene datos relacionado a algunos equipos del fútbol europeo, como son el nombre completo, la abreviación que se usa en los marcadores que vemos en la televisión y otras muchas características como la capacidad de crear opciones de disparo, la agresividad de la defensa, etc.
El este archivo contiene 288 registros. - football_player.csv : Contiene datos relacionados a jugadores que militan en las ligas europeas (como Lionel Messi y Cristiano Ronaldo entre otros), además de características propias de cada jugador como el día de nacimiento, el peso y otras más relacionadas al juego como la visión en el campo, la capacidad de convertir un penal, etc.
El este archivo contiene 9925 registros.
Este dataset fue tomado de la plataforma Kaggle: https://www.kaggle.com/hugomathien/soccer
Pero se le aplicó un preprocesamiento previo a todos los datos.
Práctico de Análisis y Visualización
Objetivo y alcance:
Se espera que los estudiantes apliquen los conceptos estadísticos aprendidos durante el cursado de la materia para el análisis de un dataset desde el punto de vista de la Ciencia de Datos y Machine Learning.
También se espera que usen los distintos tipos de gráficos vistos, para poder representar los datos ya que a veces estos por sí solos no son muy descriptivos. De esta forma los estudiantes se internalizan de manera productiva en el concepto de comunicación de datos de una manera sencilla.
Método:
El estudiante deberá obtener estadísticas descriptivas:
- Calcular estadísticos como la Moda, Media, Mediana, Desviación estándar, Mínimo y Máximo de variables como por ejemplo la altura y el peso de los jugadores. Ver si responden a alguna distribución conocida.
- Realizar un Análisis de valores atípicos (outliers)
- Explicar cómo varían las métricas cuando se desglosan por la pierna hábil de cada jugador (diestro o zurdo), Comparar cualitativamente y gráficamente ambas distribuciones.
- Calcular la correlación entre las variables de los jugadores.
- Responder a las siguientes preguntas:
- Cual es la Liga Europea con mayor cantidad de partidos? Graficar.
- Cual es la temporada en donde hubo mayor cantidad de partidos? Graficar.
- Los 10 equipos con mayor cantidad de goles de local. Graficar.
Los 10 equipos con mayor cantidad de goles de visitante. Graficar.
El equipo que convierte la mayor cantidad de goles. Graficar. - Si se les ocurre algún otra métrica que puedan extraer de los dataset, les propongo que hagan.
- Se evaluaran los siguientes aspectos:
- Estructura legible de la Jupyter Notebook
- Tipos de gráficos dependiendo de la información que se quiera representar.
Comunicación de Resultados
Se pide que toda esta información no quede plasmada en un Jupyter Notebook, sino que se diagrame una comunicación en formato textual o interactivo (Google Docs, PDF o Markdown por ejemplo).
La comunicación debe estar apuntada a un público técnico pero sin conocimiento del tema particular, como por ejemplo, sus compañeros de clase.