large-scale-data-processing

The repository contains my results of Large Scale Data Processing course at Wroclaw Univ. of Science and Technology. Main goal of laboratories was implementation of distributed reddit analysis tool with given architecture:

Laboratories scopes

Lab 1

Linux - bash, ssh, scp, tmux, htop, kill, killall, pipe operator, ls, sed, vim, cat
Docker - Dockerfile, docker-compose, containers in general
Python - pip, virtualenv, requirements, tox
Parallelize computation in Python

Lab 2

Celery
Task queue (RabbitMQ)
System monitoring (Prometheus, InfluxDB)
Reddit API usage

Lab 3

Text embedding (magnitude library)
Data persistency (MongoDB)
Data analysis (Redash)

Lab 4

pySpark
Linear regression
Binary classification
Multi-class classification

Lab 5

Kubernetes
K3s
Helm
Docker
Application deployment (AWS EC2)

Lab 6

Serving
API (Flask)
SPA (Streamlit)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
assets		assets
lab1		lab1
lab2		lab2
lab3		lab3
lab4		lab4
lab5		lab5
lab6		lab6
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

large-scale-data-processing

Laboratories scopes

Lab 1

Lab 2

Lab 3

Lab 4

Lab 5

Lab 6

About

Releases

Packages

Languages

kornelro/large-scale-data-processing

Folders and files

Latest commit

History

Repository files navigation

large-scale-data-processing

Laboratories scopes

Lab 1

Lab 2

Lab 3

Lab 4

Lab 5

Lab 6

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages