Skip to content

Criar um Ecossistema de Big Data na AWS e rodar um programa em python para ordenar as palavras por ocorrência, apresentando as mais citadas no texto.

License

Notifications You must be signed in to change notification settings

edgallojr/dio-aws-bigdata

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

image

dio-aws-bigdata

Criar um Ecossistema de Big Data na AWS e rodar um programa em python para ordenar as palavras por ocorrência, apresentando as mais citadas no texto com prioridade,

Soluções de BigData da AWS

image

Arquitetura da Prática

image

Instruções

  • Acessar S3: https://s3.console.aws.amazon.com/s3/
    • Criar estrutura de data lake : dio-live-datalake
    • Criar estrutura de pastas:
      • data
      • output
      • temp
  • Acessar EMR: https://console.aws.amazon.com/elasticmapreduce/
    • O cluster será criado pelo MrJob e não pelo console
    • Infraestrutura como código
  • Criar chave SSH
  • Obter Id e chave secreta AWS para configurar MrJob
  • Ambiente linux
    • Criar ambiente virtual python: virtualenv --python=python3.6 venv_diolive
    • Acessar com o vs code
  • Instalar vscode no Ubuntu
    • code .
  • Criar algoritmo de análise de palavras
    • dio-live-wordcount-test.py
    • map-reduce-count : contar
    • Instalar boto3: pip install boto3
    • Instalar mrjob: pip install mrjob
  • Acessar S3
    • Upload de arquivo para o bucket
  • Ambiente virtual python: source venv_teste/bin/activate
    • nano ~/.mrjob.conf
    • python3 dio-live-wordcount-test.py -r emr s3://{your_s3_bucket_name}/data/SherlockHolmes.txt --output-dir=s3://{your_s3_bucket_name}/output/logs1 --cloud-tmp-dir=s3://{your_s3_bucket_name}/temp/

About

Criar um Ecossistema de Big Data na AWS e rodar um programa em python para ordenar as palavras por ocorrência, apresentando as mais citadas no texto.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages