Script que baixa todas as planilhas de salários de magistrados do site do CNJ, extrai a aba "Contracheque", faz algumas limpezas e exporta tudo para CSV.
A licença do código é LGPL3 e dos dados convertidos Creative Commons Attribution ShareAlike. Caso utilize os dados, cite a fonte original e quem tratou os dados, como: Fonte: Conselho Nacional de Justiça, dados tratados por Álvaro Justen/Brasil.IO. Caso compartilhe os dados, utilize a mesma licença.
Caso você não queira/possa rodar o script, acesse diretamente os dados convertidos no Brasil.IO.
Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa, considere fazer uma doação ao projeto Brasil.IO, que é mantido voluntariamente.
Nem todas as planilhas puderam ser convertidas. Verifique o arquivo erros.csv para entender quais erros existem nos dados originais e como isso se propaga para os dados gerados pelo script.
Encontrou algum erro na conversão que o script faz? Crie uma issue nesse repositório.
Esse script depende de Python 3.7+ e de algumas bibliotecas. Instale-as executando:
pip install -r requirements.txt
Para rodar:
./run.sh
Esse script irá rodar dois scripts, um que baixa as planilhas e outro que as extrai e gera o resultado. Você pode rodá-los independentemente também:
# Baixa planilhas e gera `data/output/planilha.csv`:
scrapy runspider --loglevel=INFO -o data/output/planilha.csv download_files.py
gzip data/output/planilha.csv
# Lê `data/output/planilha.csv.gz` e gera outros arquivos em `data/output`:
python parse_files.py
Um diretório data
será criado, onde:
data/download
: planilhas baixadas;data/output
: arquivos de saída (CSVs compactados).