Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Gjør det klart at originalfil kan deponeres og avleveres sammen med arkivformat #99

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

petterreinholdtsen
Copy link
Collaborator

@petterreinholdtsen petterreinholdtsen commented Apr 3, 2021

Gjør det klart at originalfil kan deponeres og avleveres sammen med arkivformat

For å redusere sjansen for datatap ved konvertering bør en ta vare på
originalfil sammen med arkivformat. Det er valgfritt å ta med originalfil/
produksjonsformat, og det må avtales med uttrekksmottaker om slike
formater skal være med i uttrekket.

Gjør det klart at dokumentobjekts versjonsnummer gjelder for alle filer
lastet inn i arkivet, ikke bare filer i arkivformat, for å sikre at
versjoner av originalfiler også får versjonsnummer.

Fixes #98

@tsodring
Copy link
Contributor

tsodring commented Apr 3, 2021

Jeg vet om en IKA som praktiserer dette i dag. De tar imot produksjonsformat og bevarer det sammen med uttrekket. Men kanskje det bør komme fram at slik filer er lagret ikke bevart. Det er ingen forpliktelse til å gjøre produksjonsvarianten lesbar i framtiden. Bevaringsforpliktelsen ligger på arkivformat. Dersom det ikke er mulig å lese doc filen så er det pdf'n som gjelder.

@tsodring
Copy link
Contributor

tsodring commented Apr 3, 2021

Spesielt i Noark som har så god kontroll på det å skille produksjonsformat fra arkivformat som to dokumentobjekt tilkoblet til en dokumentbeskrivelse burde dette ikke være problematisk. Jeg har sett (ikke Noark) uttrekk der kun produksjonsformat dokumenter er med og skjønner at det gjør det vanskelig å sikre bevaringen.

@mortenee
Copy link

mortenee commented Apr 7, 2021

Hos Bergen byarkiv praktiserer vi bevaring av originalfiler for kun de filformatene vi vet det er god sjanse for at konverteringen (med dagens programvare) ikke er god nok.
Dette er automatisert som del av en automatisk normaliseringsprosess i egenutviklet verktøy for å gjøre uttrekk. Finnes her: https://github.com/Preservation-Workbench
Når bedre konverteringsløsninger for de mest trøblete formatene blir tilgjengelig kan vi da rekonvertere disse fra originalfiler.
Tanken er at dette skal kunne gjøres direkte i digitalt depot og vi eksperimenterer derfor med å bruke Subversion som DSM-system heller enn Essarch.

@petterreinholdtsen
Copy link
Collaborator Author

petterreinholdtsen commented Apr 7, 2021 via email

@mortenee
Copy link

mortenee commented Apr 7, 2021

Er et kost/nytte kompromiss basert på vår erfaring med uttrekk og filkonvertering de siste årene.
Som et eksempel hadde vi et uttrekk nylig på 4TB med filer.
Blir en reell økt kostnad for vår enhet å lagre 8TB heller enn 4+litt til den blodprisen vi blir internfakturert av intern-it.
I tillegg skal en ha flere kopier på forskjellige medier for å sikre mot bitrot mm.

Listen over formater er her: https://github.com/Preservation-Workbench/PWCode/blob/master/bin/common/convert.py
I 'mime_to_norm' øverst er ene argumentet 'keep_original'.
Skal flytte dette til en config-fil senere men dette er POC-kode så langt av en som fortsatt er ganske fersk på python.
Vil bedres sakte men sikkert framover. Men er allerede godt nok til at vi har brukt det på alle uttrekk siste året.
Gjør hele prosessen ved datauttrekk automatisk - ikke bare konvertering av filer.
Har ikke støtte for Noark-uttrekk ennå men kan legges til hvis vi trenger det.
Håper foreløpig at det åpnes for Noark-uttrekk som en ren DIP heller enn at det er formatet for SIP'en.
Bedre forklaring av programvaren finnes i en rapport vi skrev nettopp. Kan sende den pr mail hvis ønskelig.
Den beskriver også URD i detalj (brukes for å lage DIP): https://github.com/fkirkholt/urd

…rkivformat

For å redusere sjansen for datatap ved konvertering bør en ta vare på
originalfil sammen med arkivformat.  Det er valgfritt å ta med originalfil/
produksjonsformat, og det må avtales med uttrekksmottaker om slike
formater skal være med i uttrekket.

Gjør det klart at dokumentobjekts versjonsnummer gjelder for alle filer
lastet inn i arkivet, ikke bare filer i arkivformat, for å sikre at
versjoner av originalfiler også får versjonsnummer.

Fixes arkivverket#98
@petterreinholdtsen
Copy link
Collaborator Author

Jeg har oppdatert forslaget til endring og gjort det klart at det må avtales med mottaker om uttrekk skal ha med originalformater, samt tatt med justering av versjonsnummer for å sikre at også originalfiler kan ha versjonsnummer.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Digitale originaldokumenter bør bevares, digitalarkivets rosettastein
3 participants