Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Sprint 3: Culminación del análisis exploratorio de datos #34

Open
maferhel opened this issue Apr 16, 2024 · 1 comment
Open

Sprint 3: Culminación del análisis exploratorio de datos #34

maferhel opened this issue Apr 16, 2024 · 1 comment
Assignees

Comments

@maferhel
Copy link
Collaborator

No description provided.

@JavierEdgarEsteban77
Copy link
Collaborator

Descripción del Trabajo:
Preparación y Configuración del Entorno:

Configure Microsoft Azure y preparé Data Factory y Azure Lakehouse, estableciendo el entorno de trabajo necesario en PySpark para manejar los datos de TripAdvisor, el tiempo estimado fue de 3 horas.

Integración con la API de TripAdvisor Developers:

Implementé y configuré la conexión con la API de TripAdvisor para obtener datos específicos relacionados con los locationId, el tiempo estimado fue de 5 horas (configuración de API, pruebas iniciales y manejo de errores), también cree y maneje archivos (.skl):

Desarrollée un sistema para extraer y guardar los locationId obtenidos de la API en un archivo .skl, que sirve como intermediario en el procesamiento de datos, el tiempo estimado fue de 2 horas (creación y configuración del archivo).

Consumo de Datos y Creación de DataFrames:

Utilicé PySpark para leer los datos del archivo .skl, consumirlos y transformarlos en DataFrames para un análisis más detallado, el tiempo estimado fue de 6 horas (programación en PySpark, carga y transformación de datos).

Análisis Exploratorio de Datos (EDA):

Realizé un análisis exploratorio de los datos para identificar patrones, tendencias y posibles anomalías en el conjunto de datos, utilizando diversas funciones y métodos estadísticos en PySpark, el tiempo estimado fue de 7 horas (análisis detallado, visualización de datos, interpretación de resultados).

Documentación y Reporte:

Documenté todo el proceso y los hallazgos del análisis en un formato adecuado, preparando el contenido para compartir con el equipo o stakeholders, el tiempo estimado fue de 3 horas (preparación de documentación, revisión y ajustes finales).

Carga Horaria Total Estimada: 26 horas. Esta estimación cubre desde la configuración inicial hasta la documentación final, considerando también las tareas de depuración y optimización que puedan surgir.

Consideraciones Adicionales:
Reuniones de seguimiento y coordinación: como somos un equipo, incluimos tiempo para las reuniones de seguimiento o coordinación necesarias todos los días a las 22hrs argentina.

Revisión por pares: la consideración de tiempo adicional fue aproximadamente de 2 horas en cada reunión.

@maferhel maferhel moved this from En proceso to Finalizado in Proyecto Final Apr 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: No status
Development

No branches or pull requests

3 participants