Skip to content

Obligatorio Certificado de Big Data (Semestre especialización - Marzo 2024) Calificación: 47/55

Notifications You must be signed in to change notification settings

n1colasf/Obligatorio-BD

Repository files navigation

Obligatorio BIG DATA

Universidad ORT Uruguay


Certificado de Big Data - Analista TI

Análisis de datos de la ciudad de Barcelona

Gerónimo de Lisa - Nicolas Fernandez

Julio 2024

Nota: xx/55


Introducción

Ver Letra

En este trabajo se analizarán los datos de la ciudad de Barcelona de acuerdo a los objetivos propuestos en el trabajo.



Objetivos

Para el obligatorio se deberán utilizar las herramientas utilizadas en el curso. Deberá seleccionar un conjunto de datos tabulares con más de 4 tablas y deberá seleccionar 8 preguntas relativas a los datos para contestarlas.



Desarrollo

Parte 1

Los pasos a seguir son:

  • Tomar los datos que fueron seleccionados junto al docente.
  • Realizar un análisis exploratorio de los datos vía pandas, identificando el tipo de datos que hay en cada columna y que significado tienen dentro del dominio de los datos
  • Revisar valores nulos o faltantes y limpiarlos si es necesario. Revisar registros duplicados. Claves primarias únicas.
  • Los archivos resultantes se deberán almacenar en otra carpeta.
  • A partir de estos nuevos archivos, se deben crear visualizaciones dentro de otro notebook con las herramientas dadas en clase u otras de elección del equipo, que ayuden a responder las preguntas seleccionadas.

Parte 2

El mismo análisis realizado en la parte 1 realizarlo vía Spark, ya sea dentro de la máquina virtual si se tienen créditos si no dentro de Google Collab.

Parte 3

Se píde desarrollar un dashboard que responda algunas de las preguntas planteadas, implementado en Tableau Public o superset.

Parte 4

Una vez que termine con la exploración y limpieza de datos, deberá elegir una forma de modelarlos, esta puede ser, Normalizada, Diagrama Estrella, Data Vault, o OBT. Describir en Hive, como lo modelaría, que tablas crearía y de que tipo (externas, internas).



Datos

A continuación se muestra una tabla con los 17 datasets utilizados en el análisis de datos de la ciudad de Barcelona, junto con su nombre y enlace a su ubicación:

Nombre del dataset Enlace Dataset limpiado Para Tableau
Accidents 2017 Enlace 1 Nuevo 1
Air quality Nov 2017 Enlace 2 Nuevo 2
Air stations Nov 2017 Enlace 3 Nuevo 3
Births Enlace 4 Nuevo 4
Bus stops Enlace 5 Nuevo 5 Tableau 5
Deaths Enlace 6 Nuevo 6 Tableau 6
Immigrants by nationality Enlace 7 Nuevo 7
Immigrants emigrants by age Enlace 8 Nuevo 8
Immigrants emigrants by destination Enlace 9 Nuevo 9
Immigrants emigrants by destination 2 Enlace 10 Nuevo 10
Immigrants emigrants by sex Enlace 11 Nuevo 11
Life expectancy Enlace 12 Nuevo 12
Most frequent baby names Enlace 13 Nuevo 13
Most frequent names Enlace 14 Nuevo 14
Population Enlace 15 Nuevo 15 Tableau 15
Transports Enlace 16 Nuevo 16 Tableau 16
Unemployment Enlace 17 Nuevo 17


Preguntas

  1. ¿Cuál es la relación entre las paradas de autobús y la densidad de población en diferentes barrios?, ¿influye el transporte publico?
  2. ¿Cuál es la nacionalidad más común entre los inmigrantes en Barcelona?
  3. ¿cómo varía la cantidad de nacimientos por género con el tiempo en diferentes distritos y barrios de Barcelona?
  4. ¿Cuál es la relación entre la cantidad de accidentes y la densidad de población en diferentes barrios?, ¿influye la calidad del aire?
  5. ¿Cómo varía la esperanza de vida en diferentes barrios de Barcelona?
  6. ¿Cuál es la relación entre la cantidad de inmigrantes y los niveles de desempleo en los diferentes barrios?
  7. ¿Cuales son los nombres mas populares en Barcelona?, ¿influye la inmigración?
  8. ¿Cual es la relación entre las muertes, el desempleo y la inmigración en diferentes barrios de Barcelona?


Análisis

Parte 1

Ver Notebook de Análisis de Datos

Ver Notebook de Respuestas a Preguntas

Parte 2

Ver Notebook de Análisis con Spark

Link a datos de Drive

Parte 3

DASHBOARD PREGUNTA 1

Ver Dashboard 1

DASHBOARD PREGUNTA 2

Ver Dashboard 2

DASHBOARD PREGUNTA 3

Ver Dashboard 3

DASHBOARD PREGUNTA 4

Ver Dashboard 4

Parte 4

Ver Modelado de Datos



Conclusiones

En este trabajo se analizaron los datos de la ciudad de Barcelona, se realizaron visualizaciones y se respondieron preguntas planteadas. Se utilizó tanto Python con Pandas y otras librerias, asi como también Spark para el análisis de los datos. Se crearon dashboards en Tableau Public y se presentó un modelado teórico de los datos en Hive.

About

Obligatorio Certificado de Big Data (Semestre especialización - Marzo 2024) Calificación: 47/55

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published