Skip to content

Consiste en el trabajo con MongoDB sobre un conjunto de datos muy extenso. incluyendo la utilización de la libreria pandas para dataframe y geodataframes, gráficos con matplotlib y otros

Notifications You must be signed in to change notification settings

SofiaBacich/TP4-SGBD-MongoDB

Repository files navigation

TP4-SGBD: Análisis de Tweets con MongoDB

Trabajo práctico 4 de Sistemas de Gestión de Base de Datos.

Descripción

Consiste en un trabajo sobre un conjunto de datos muy extenso dado en formato .json (crisis.20190410.json)

Este se importa a una base de datos en MongoDB a partir de la cual se trabaja.

Detalle de los archivos

practica4.pdf

Es consigna. Se recomienda leer para entender el propósito de cada paso

crisis.20190410.json

El archivo "crisis.20190410.json" es la muestra de datos completa dada en el enunciado. A partir de este se realizan recortes y análisis dando como resultado dos archivos: "tweets.json" y "allTweets.json" cuyo uso se detalla a continuación.

Configuraciones - Aclaraciones.pdf

Da una buena guia del paso a paso y de las configuraciones necesarias

comandos.txt

Es la resolución de los ejercicios 3.1, 3.2, 3.3 y 3.4, los cuales consisten en querys a correr en MongoSh. Para estos se trabaja con una cantidad reducida de registros a partir de la base de datos "tweets.json" que consiste en los primeros 5000 registros de la base "crisis.20190410.json"

3.4.1.py

Es la resolución del primer punto del ejercicio 3.4. En el cual se hace un gran trabajo sobre el conjunto de datos, analizando aquellos que poseen user.location y clasificando esa ubicación según la base de datos "world.sql". Se exporta la base de datos resultante en "allTweets.json" para poder importarla sin tener que esperar todo este proceso. A partir de esta se realizan los puntos siguientes

3.4.2.py y su carpeta

Este punto requiere la utilización de los archivos existentes para crear un GeoDataFrame que servirá para poder crear un gráfico (Mapa Choropleth)

El gráfico creado puede verse en "Tweets Mundiales.png". Consiste en la cantidad de tweets por país."

3.4.3.py

Es la resolución de dicho ejercicio, donde se realizan nubes de palabras para Argentina y Estados Unidos.

Los gráficos creado puede verse en "Nube de palabras para Argentina.png" y "Nube de palabras para United States.png".

About

Consiste en el trabajo con MongoDB sobre un conjunto de datos muy extenso. incluyendo la utilización de la libreria pandas para dataframe y geodataframes, gráficos con matplotlib y otros

Topics

Resources

Stars

Watchers

Forks