em desenvolvimento
Dados de acidentes rodoviários com mortos e/ou feridos graves em Portugal Continental
Relatórios de Sinistralidade da ANSR.
Notas:
embora haja um script para download dos PDFs (total de 429 PDFs a 08/Set/2018), o servidor tem rate-limiting agressivonão usar sleep, há um espaço temporal antes de ser bloqueado que chega para fazer download de todos os relatórios PDFs- relatórios anuais em PDF, por distrito de Portugal Continental
- entre os anos 2004 e 2017. Existem outros relatórios entre 1999 e 2003 (ainda a explorar)
- dois formatos de relatórios: vÃtimas a 24 horas e vÃtimas a 30 dias.
- Os dados a 30d começam a partir de 2010. Os dados a partir de 2011 estão tratados de forma semelhante aos das vÃtimas a 24h, numa tabela com todos os acidentes. Os dados de 2010 não estão tratados, dado que o respectivo relatório apenas inclui na tabela acidentes onde houve alterações no número de mortos entre as 24h e os 30 dias; para produzir a tabela completa, seria necessário cruzar a informação das duas tabelas. Caso necessite desta informação e tenha dificuldades, crie um issue
- tabela de 'Listagem dos Acidentes' extraÃda usando tabula-py (script disponÃvel na pasta /scripts)
- campos vazios têm um '-'
Scripts:
make pdf_download
para download dos PDFs para a pastapdfs
Corrigir nomes inconsistentes dos csv causados por inconsistência do nome dos pdfs originais- Corrigir erros nas tabelas, mais frequentes e inconsistentes de 2012 para trás
- Nos ficheiros de 2007 para trás, há problemas nos cabeçalhos na conversão das tabelas. Em alguns casos, o tÃtulo da página aparece na tabela convertida, pelo que o código procura pelo cabeçalho correcto nas primeiras linhas do ficheiro csv convertido. Há casos em que o cabeçalho não é convertido e o código acaba por não identificar nenhuma tabela de acidentes, apesar dela existir. É necessário fazer adaptações para este último caso. Existem por isso alguns ficheiros de dados de 2004 e 2005 vazios.
- Documentar scripts, makefile no final