-
-
Notifications
You must be signed in to change notification settings - Fork 25
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Caso: Sumiço de diários de Peritoró-MA #62
Comments
CONTEXTWe started getting scraping errors for Peritóro-MA. The reason is that the diary publishing site has changed. Evidences: In this new address it is possible to see (when accessing the last page) that there is a diary from 2018, one from 2022 and then it goes to March/2023, and the publication continues from this last date onwards. Where are the 2018 editions until March/2023? Querido Diário has editions from 04-01-2021 to 04-04-2023 (change the order to recent/old to check the interval), collected on the previous site before it was suspended, being, apparently, the only public place where these diaries are. SUGGESTED ACTION: Make a LAI request to escalate the issue
|
Dúvida: seria possível automatizar um registro dessas URLs que raspamos no Internet Archive? |
Doubt: would it be possible to automate a record of these URLs that we scrape in the Internet Archive? |
Automatizar eu não sei, @jedibruno :( Talvez o @turicas tenha alguma boa ideia sobre o assunto (recentemente, vi sua apresentação da CryptoRave sobre o projeto Graúna (https://grauna.org.br/) que participa. É como um Internet Archive para sites brasileiros selecionados por uma curadoria. |
I don't know about automating, @jedibruno :( Maybe @turicas has some good idea on the subject (I recently saw his CryptoRave presentation on the Graúna project (https://grauna.org.br/) which he participates in. It's like a Internet Archive for Brazilian sites selected by a curatorship. |
@trevineju não sei se o Graúna conseguiria ajudar nesse caso em específico, dado que os sites arquivados são selecionados pela equipe do Nupef, mas achei legal a ideia de tentar arquivar automaticamente pelo Internet Archive, porém também não descartaria tentar usar a lei para acionar a prefeitura e conseguir o histórico de volta. |
@trevineju I don't know if Graúna would be able to help in this specific case, given that the archived sites are selected by the Nupef team, but I thought the idea of trying to archive automatically through the Internet Archive was cool, but I also wouldn't rule out trying to use the law to trigger the city hall and get the history back. |
Peritoró passou a publicar em um novo site: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e que tem diários de 2017 até hoje. |
Peritoró started publishing on a new website: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e which has diaries from 2017 to today. |
CONTEXTO
Começamos a receber erros de raspagem para Peritóro-MA. O motivo é que o site publicador de diários mudou.
Nesses casos, para preservar o histórico de diários, é comum que prefeituras mantenham os dois sites ou migre o conteúdo do site sendo abandonado para o novo. Entretanto, Peritoró-MA não o fez, apenas derrubou o site anterior, cessando o acesso à anos de diários oficiais do município.
Evidências:
O site que o Querido Diário costumava coletar edições de diários era (
a2202c5
): https://www.peritoro.ma.gov.br/diario/Esta URL redireciona para outro endereço que indica os diários agora estão sendo publicados em: https://dom.peritoro.ma.gov.br/
Neste novo endereço é possível ver (ao acessar a última página) que tem um diário de 2018, um de 2022 e aí passa para março/2023, e a publicação segue desta última data em diante. Onde estão as edições de 2018 até março/2023?
O Querido Diário tem as edições de 04-01-2021 até 04-04-2023 (trocar a ordenação para recentes/antigos para conferir o intervalo), coletadas no site anterior antes dele ser suspenso, sendo, aparentemente, o único local público onde estão esses diários.
AÇÃO SUGERIDA: Fazer um pedido de LAI para encaminhar a questão
The text was updated successfully, but these errors were encountered: