diff --git a/CITATION.cff b/CITATION.cff new file mode 100644 index 0000000..56c667e --- /dev/null +++ b/CITATION.cff @@ -0,0 +1,23 @@ +cff-version: 1.2.0 +title: >- + Das Internet vergisst doch – Handreichung für die + Archivierung von wissenschaftlichen Webseiten +message: >- + If you use this software, please cite it using the + metadata from this file. +type: software +authors: + - given-names: Andreas + family-names: Frech + orcid: 'https://orcid.org/0000-0002-1458-1163' + affiliation: Ludwig-Maximilians-Universität München + - given-names: Yves Vincent + family-names: Grossmann + affiliation: Max Planck Digital Library + orcid: 'https://orcid.org/0000-0002-2880-8947' +repository-code: >- + https://github.com/UB-LMU/Webseitenarchivierung_BestPracticeGuide +keywords: + - Archivierung + - Webseite +license: CC-BY-4.0 \ No newline at end of file diff --git a/Checkliste_Webseiten-Archivierung_V1.0.docx b/Checkliste_Webseiten-Archivierung_V1.0.docx new file mode 100644 index 0000000..6cabd4a Binary files /dev/null and b/Checkliste_Webseiten-Archivierung_V1.0.docx differ diff --git a/Checkliste_Webseiten-Archivierung_V1.0.pdf b/Checkliste_Webseiten-Archivierung_V1.0.pdf new file mode 100644 index 0000000..0b5270b Binary files /dev/null and b/Checkliste_Webseiten-Archivierung_V1.0.pdf differ diff --git a/Checkliste_Webseiten-Konzipierung_V1.0.docx b/Checkliste_Webseiten-Konzipierung_V1.0.docx new file mode 100644 index 0000000..443f92b Binary files /dev/null and b/Checkliste_Webseiten-Konzipierung_V1.0.docx differ diff --git a/Checkliste_Webseiten-Konzipierung_V1.0.pdf b/Checkliste_Webseiten-Konzipierung_V1.0.pdf new file mode 100644 index 0000000..4b79098 Binary files /dev/null and b/Checkliste_Webseiten-Konzipierung_V1.0.pdf differ diff --git a/LICENSE b/LICENSE new file mode 100644 index 0000000..4ea99c2 --- /dev/null +++ b/LICENSE @@ -0,0 +1,395 @@ +Attribution 4.0 International + +======================================================================= + +Creative Commons Corporation ("Creative Commons") is not a law firm and +does not provide legal services or legal advice. Distribution of +Creative Commons public licenses does not create a lawyer-client or +other relationship. Creative Commons makes its licenses and related +information available on an "as-is" basis. Creative Commons gives no +warranties regarding its licenses, any material licensed under their +terms and conditions, or any related information. Creative Commons +disclaims all liability for damages resulting from their use to the +fullest extent possible. + +Using Creative Commons Public Licenses + +Creative Commons public licenses provide a standard set of terms and +conditions that creators and other rights holders may use to share +original works of authorship and other material subject to copyright +and certain other rights specified in the public license below. The +following considerations are for informational purposes only, are not +exhaustive, and do not form part of our licenses. + + Considerations for licensors: Our public licenses are + intended for use by those authorized to give the public + permission to use material in ways otherwise restricted by + copyright and certain other rights. Our licenses are + irrevocable. Licensors should read and understand the terms + and conditions of the license they choose before applying it. + Licensors should also secure all rights necessary before + applying our licenses so that the public can reuse the + material as expected. Licensors should clearly mark any + material not subject to the license. This includes other CC- + licensed material, or material used under an exception or + limitation to copyright. More considerations for licensors: + wiki.creativecommons.org/Considerations_for_licensors + + Considerations for the public: By using one of our public + licenses, a licensor grants the public permission to use the + licensed material under specified terms and conditions. If + the licensor's permission is not necessary for any reason--for + example, because of any applicable exception or limitation to + copyright--then that use is not regulated by the license. Our + licenses grant only permissions under copyright and certain + other rights that a licensor has authority to grant. Use of + the licensed material may still be restricted for other + reasons, including because others have copyright or other + rights in the material. A licensor may make special requests, + such as asking that all changes be marked or described. + Although not required by our licenses, you are encouraged to + respect those requests where reasonable. More considerations + for the public: + wiki.creativecommons.org/Considerations_for_licensees + +======================================================================= + +Creative Commons Attribution 4.0 International Public License + +By exercising the Licensed Rights (defined below), You accept and agree +to be bound by the terms and conditions of this Creative Commons +Attribution 4.0 International Public License ("Public License"). To the +extent this Public License may be interpreted as a contract, You are +granted the Licensed Rights in consideration of Your acceptance of +these terms and conditions, and the Licensor grants You such rights in +consideration of benefits the Licensor receives from making the +Licensed Material available under these terms and conditions. + + +Section 1 -- Definitions. + + a. Adapted Material means material subject to Copyright and Similar + Rights that is derived from or based upon the Licensed Material + and in which the Licensed Material is translated, altered, + arranged, transformed, or otherwise modified in a manner requiring + permission under the Copyright and Similar Rights held by the + Licensor. For purposes of this Public License, where the Licensed + Material is a musical work, performance, or sound recording, + Adapted Material is always produced where the Licensed Material is + synched in timed relation with a moving image. + + b. Adapter's License means the license You apply to Your Copyright + and Similar Rights in Your contributions to Adapted Material in + accordance with the terms and conditions of this Public License. + + c. Copyright and Similar Rights means copyright and/or similar rights + closely related to copyright including, without limitation, + performance, broadcast, sound recording, and Sui Generis Database + Rights, without regard to how the rights are labeled or + categorized. For purposes of this Public License, the rights + specified in Section 2(b)(1)-(2) are not Copyright and Similar + Rights. + + d. Effective Technological Measures means those measures that, in the + absence of proper authority, may not be circumvented under laws + fulfilling obligations under Article 11 of the WIPO Copyright + Treaty adopted on December 20, 1996, and/or similar international + agreements. + + e. Exceptions and Limitations means fair use, fair dealing, and/or + any other exception or limitation to Copyright and Similar Rights + that applies to Your use of the Licensed Material. + + f. Licensed Material means the artistic or literary work, database, + or other material to which the Licensor applied this Public + License. + + g. Licensed Rights means the rights granted to You subject to the + terms and conditions of this Public License, which are limited to + all Copyright and Similar Rights that apply to Your use of the + Licensed Material and that the Licensor has authority to license. + + h. Licensor means the individual(s) or entity(ies) granting rights + under this Public License. + + i. Share means to provide material to the public by any means or + process that requires permission under the Licensed Rights, such + as reproduction, public display, public performance, distribution, + dissemination, communication, or importation, and to make material + available to the public including in ways that members of the + public may access the material from a place and at a time + individually chosen by them. + + j. Sui Generis Database Rights means rights other than copyright + resulting from Directive 96/9/EC of the European Parliament and of + the Council of 11 March 1996 on the legal protection of databases, + as amended and/or succeeded, as well as other essentially + equivalent rights anywhere in the world. + + k. You means the individual or entity exercising the Licensed Rights + under this Public License. Your has a corresponding meaning. + + +Section 2 -- Scope. + + a. License grant. + + 1. Subject to the terms and conditions of this Public License, + the Licensor hereby grants You a worldwide, royalty-free, + non-sublicensable, non-exclusive, irrevocable license to + exercise the Licensed Rights in the Licensed Material to: + + a. reproduce and Share the Licensed Material, in whole or + in part; and + + b. produce, reproduce, and Share Adapted Material. + + 2. Exceptions and Limitations. For the avoidance of doubt, where + Exceptions and Limitations apply to Your use, this Public + License does not apply, and You do not need to comply with + its terms and conditions. + + 3. Term. The term of this Public License is specified in Section + 6(a). + + 4. Media and formats; technical modifications allowed. The + Licensor authorizes You to exercise the Licensed Rights in + all media and formats whether now known or hereafter created, + and to make technical modifications necessary to do so. The + Licensor waives and/or agrees not to assert any right or + authority to forbid You from making technical modifications + necessary to exercise the Licensed Rights, including + technical modifications necessary to circumvent Effective + Technological Measures. For purposes of this Public License, + simply making modifications authorized by this Section 2(a) + (4) never produces Adapted Material. + + 5. Downstream recipients. + + a. Offer from the Licensor -- Licensed Material. Every + recipient of the Licensed Material automatically + receives an offer from the Licensor to exercise the + Licensed Rights under the terms and conditions of this + Public License. + + b. No downstream restrictions. You may not offer or impose + any additional or different terms or conditions on, or + apply any Effective Technological Measures to, the + Licensed Material if doing so restricts exercise of the + Licensed Rights by any recipient of the Licensed + Material. + + 6. No endorsement. Nothing in this Public License constitutes or + may be construed as permission to assert or imply that You + are, or that Your use of the Licensed Material is, connected + with, or sponsored, endorsed, or granted official status by, + the Licensor or others designated to receive attribution as + provided in Section 3(a)(1)(A)(i). + + b. Other rights. + + 1. Moral rights, such as the right of integrity, are not + licensed under this Public License, nor are publicity, + privacy, and/or other similar personality rights; however, to + the extent possible, the Licensor waives and/or agrees not to + assert any such rights held by the Licensor to the limited + extent necessary to allow You to exercise the Licensed + Rights, but not otherwise. + + 2. Patent and trademark rights are not licensed under this + Public License. + + 3. To the extent possible, the Licensor waives any right to + collect royalties from You for the exercise of the Licensed + Rights, whether directly or through a collecting society + under any voluntary or waivable statutory or compulsory + licensing scheme. In all other cases the Licensor expressly + reserves any right to collect such royalties. + + +Section 3 -- License Conditions. + +Your exercise of the Licensed Rights is expressly made subject to the +following conditions. + + a. Attribution. + + 1. If You Share the Licensed Material (including in modified + form), You must: + + a. retain the following if it is supplied by the Licensor + with the Licensed Material: + + i. identification of the creator(s) of the Licensed + Material and any others designated to receive + attribution, in any reasonable manner requested by + the Licensor (including by pseudonym if + designated); + + ii. a copyright notice; + + iii. a notice that refers to this Public License; + + iv. a notice that refers to the disclaimer of + warranties; + + v. a URI or hyperlink to the Licensed Material to the + extent reasonably practicable; + + b. indicate if You modified the Licensed Material and + retain an indication of any previous modifications; and + + c. indicate the Licensed Material is licensed under this + Public License, and include the text of, or the URI or + hyperlink to, this Public License. + + 2. You may satisfy the conditions in Section 3(a)(1) in any + reasonable manner based on the medium, means, and context in + which You Share the Licensed Material. For example, it may be + reasonable to satisfy the conditions by providing a URI or + hyperlink to a resource that includes the required + information. + + 3. If requested by the Licensor, You must remove any of the + information required by Section 3(a)(1)(A) to the extent + reasonably practicable. + + 4. If You Share Adapted Material You produce, the Adapter's + License You apply must not prevent recipients of the Adapted + Material from complying with this Public License. + + +Section 4 -- Sui Generis Database Rights. + +Where the Licensed Rights include Sui Generis Database Rights that +apply to Your use of the Licensed Material: + + a. for the avoidance of doubt, Section 2(a)(1) grants You the right + to extract, reuse, reproduce, and Share all or a substantial + portion of the contents of the database; + + b. if You include all or a substantial portion of the database + contents in a database in which You have Sui Generis Database + Rights, then the database in which You have Sui Generis Database + Rights (but not its individual contents) is Adapted Material; and + + c. You must comply with the conditions in Section 3(a) if You Share + all or a substantial portion of the contents of the database. + +For the avoidance of doubt, this Section 4 supplements and does not +replace Your obligations under this Public License where the Licensed +Rights include other Copyright and Similar Rights. + + +Section 5 -- Disclaimer of Warranties and Limitation of Liability. + + a. UNLESS OTHERWISE SEPARATELY UNDERTAKEN BY THE LICENSOR, TO THE + EXTENT POSSIBLE, THE LICENSOR OFFERS THE LICENSED MATERIAL AS-IS + AND AS-AVAILABLE, AND MAKES NO REPRESENTATIONS OR WARRANTIES OF + ANY KIND CONCERNING THE LICENSED MATERIAL, WHETHER EXPRESS, + IMPLIED, STATUTORY, OR OTHER. THIS INCLUDES, WITHOUT LIMITATION, + WARRANTIES OF TITLE, MERCHANTABILITY, FITNESS FOR A PARTICULAR + PURPOSE, NON-INFRINGEMENT, ABSENCE OF LATENT OR OTHER DEFECTS, + ACCURACY, OR THE PRESENCE OR ABSENCE OF ERRORS, WHETHER OR NOT + KNOWN OR DISCOVERABLE. WHERE DISCLAIMERS OF WARRANTIES ARE NOT + ALLOWED IN FULL OR IN PART, THIS DISCLAIMER MAY NOT APPLY TO YOU. + + b. TO THE EXTENT POSSIBLE, IN NO EVENT WILL THE LICENSOR BE LIABLE + TO YOU ON ANY LEGAL THEORY (INCLUDING, WITHOUT LIMITATION, + NEGLIGENCE) OR OTHERWISE FOR ANY DIRECT, SPECIAL, INDIRECT, + INCIDENTAL, CONSEQUENTIAL, PUNITIVE, EXEMPLARY, OR OTHER LOSSES, + COSTS, EXPENSES, OR DAMAGES ARISING OUT OF THIS PUBLIC LICENSE OR + USE OF THE LICENSED MATERIAL, EVEN IF THE LICENSOR HAS BEEN + ADVISED OF THE POSSIBILITY OF SUCH LOSSES, COSTS, EXPENSES, OR + DAMAGES. WHERE A LIMITATION OF LIABILITY IS NOT ALLOWED IN FULL OR + IN PART, THIS LIMITATION MAY NOT APPLY TO YOU. + + c. The disclaimer of warranties and limitation of liability provided + above shall be interpreted in a manner that, to the extent + possible, most closely approximates an absolute disclaimer and + waiver of all liability. + + +Section 6 -- Term and Termination. + + a. This Public License applies for the term of the Copyright and + Similar Rights licensed here. However, if You fail to comply with + this Public License, then Your rights under this Public License + terminate automatically. + + b. Where Your right to use the Licensed Material has terminated under + Section 6(a), it reinstates: + + 1. automatically as of the date the violation is cured, provided + it is cured within 30 days of Your discovery of the + violation; or + + 2. upon express reinstatement by the Licensor. + + For the avoidance of doubt, this Section 6(b) does not affect any + right the Licensor may have to seek remedies for Your violations + of this Public License. + + c. For the avoidance of doubt, the Licensor may also offer the + Licensed Material under separate terms or conditions or stop + distributing the Licensed Material at any time; however, doing so + will not terminate this Public License. + + d. Sections 1, 5, 6, 7, and 8 survive termination of this Public + License. + + +Section 7 -- Other Terms and Conditions. + + a. The Licensor shall not be bound by any additional or different + terms or conditions communicated by You unless expressly agreed. + + b. Any arrangements, understandings, or agreements regarding the + Licensed Material not stated herein are separate from and + independent of the terms and conditions of this Public License. + + +Section 8 -- Interpretation. + + a. For the avoidance of doubt, this Public License does not, and + shall not be interpreted to, reduce, limit, restrict, or impose + conditions on any use of the Licensed Material that could lawfully + be made without permission under this Public License. + + b. To the extent possible, if any provision of this Public License is + deemed unenforceable, it shall be automatically reformed to the + minimum extent necessary to make it enforceable. If the provision + cannot be reformed, it shall be severed from this Public License + without affecting the enforceability of the remaining terms and + conditions. + + c. No term or condition of this Public License will be waived and no + failure to comply consented to unless expressly agreed to by the + Licensor. + + d. Nothing in this Public License constitutes or may be interpreted + as a limitation upon, or waiver of, any privileges and immunities + that apply to the Licensor or You, including from the legal + processes of any jurisdiction or authority. + + +======================================================================= + +Creative Commons is not a party to its public +licenses. Notwithstanding, Creative Commons may elect to apply one of +its public licenses to material it publishes and in those instances +will be considered the “Licensor.” The text of the Creative Commons +public licenses is dedicated to the public domain under the CC0 Public +Domain Dedication. Except for the limited purpose of indicating that +material is shared under a Creative Commons public license or as +otherwise permitted by the Creative Commons policies published at +creativecommons.org/policies, Creative Commons does not authorize the +use of the trademark "Creative Commons" or any other trademark or logo +of Creative Commons without its prior written consent including, +without limitation, in connection with any unauthorized modifications +to any of its public licenses or any other arrangements, +understandings, or agreements concerning use of licensed material. For +the avoidance of doubt, this paragraph does not form part of the +public licenses. + +Creative Commons may be contacted at creativecommons.org. diff --git a/README.md b/README.md index 571617a..f8e26a7 100644 --- a/README.md +++ b/README.md @@ -1 +1,26 @@ -# Webseitenarchivierung_BestPracticeGuide \ No newline at end of file +# Webseitenarchivierung - Best Practice Guide + +## Name +"Das Internet vergisst doch - Handreichung für die Archivierung von wissenschaftlichen Webseiten" / "The Internet does forget - Guidelines for the archiving of scientific websites" + +## Description +This repository organises a text as a guide and accompanying material for the archiving of scientific project websites. The text is written in German and translated into English. The handouts provide an overview of the main topics relating to the archiving of scientific project websites. In addition to the explanatory texts, essential questions on the sections are offered again and again. All of this is supplemented by footnotes with the relevant literature and helpful online links. + +## Usage +The text of the handout as well as the materials can be used by anyone in accordance with the licence conditions. The checklists in particular are ideal for use in counselling sessions and for self-assessment. The handout is written in Markdown so that it can be easily transferred to digital or analogue usage scenarios. The checklists are available as .docx and for immediate use as .pdf files in German and English. + +## Support +If you have any questions about this repository and the handout in general, please contact forschungsdaten@ub.uni-muenchen.de. For content-related questions, please contact your local library or IT colleagues. + +## Contributing +You are welcome to collaborate on the handout text and materials. We look forward to your contributions! You can either write an issue with topics, problems, etc. Or contribute directly to the text via a pull request. +If you have any questions, please contact us at forschungsdaten@ub.uni-muenchen.de. + +## Cite +This entire repository is replicated in Zenodo via GitHub Action. We therefore recommend Zenodo for the correct citation and persistent preservation of statuses. + +## Authors and acknowledgment +Andreas Frech (Ludwig-Maximilians-Universität München) and Yves Vincent Grossmann (Max Planck Digital Library) + +## License +CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/legalcode.txt) \ No newline at end of file diff --git a/Webseitenarchivierung_BestPracticeGuide.md b/Webseitenarchivierung_BestPracticeGuide.md new file mode 100644 index 0000000..c3b897d --- /dev/null +++ b/Webseitenarchivierung_BestPracticeGuide.md @@ -0,0 +1,422 @@ +# Das Internet vergisst doch - Handreichung für die Archivierung von wissenschaftlichen Webseiten +Autoren: Andreas Frech (LMU) und Yves Vincent Grossmann (MPDL) + +Version 1.0 - 18.01.2024 + +## Einleitendes +### Problembeschreibung +Entgegen des häufig kolportierten Satzes „Das Internet vergisst nichts!“ und des ebenso häufig angemahnten „Rechts auf Vergessen“ verschwinden Informationen oft leise und unbemerkt, aber stetig aus dem Netz. Diese Phänomene werden als „content drift“ (Änderung von Webinhalten unter der gleichen Adresse), „link rot“ (Verfall von Webseitenlinks) oder „reference rot“ (Verfall von Zitierungen eines Webinhalts) bezeichnet. Sie betreffen das gesamte Spektrum des Internets, von einzelnen Webseiten, über Publikationen bis hin zu Social-Media-Anbietern. Zwar ist es richtig, dass besonders Social-Media-Posts über einen mittelfristig relevanten Zeitraum erhalten bleiben, jedoch ist eine langfristige Verfügbarkeit selbst bei großen Marktteilnehmern alles andere als gewährleistet. Im März 2019 wurde bekannt, dass die Social-Media-Plattform [„MySpace“](https://de.wikipedia.org/wiki/Myspace#Geschichte ) durch einen missglückten Serverumzug ca. 50 Millionen Fotos, Videos und Audiodateien verlor, die in den Jahren 2003 bis 2016 hochgeladen wurden. 490.000 mp3s konnten im April 2019 durch das Internet Archive wiederhergestellt werden; die Mehrheit der Daten blieb jedoch verloren. In den 2000er Jahren war MySpace die zentrale Anlaufstelle für Musiker und Musikliebhaber gleichermaßen im Internet und das Verschwinden von sowohl Daten als auch der Plattform selbst war lange so undenkbar wie bei anderen großen zeitgenössischen, inzwischen heftig ins Wanken geratenen Plattformen. Jede einzelne Webseite im Internet benötigt Hardware-Komponenten wie Webserver, Speichermedien und Netzwerkinfrastruktur und dazu passende Betriebssysteme, Datenbank- und Webserver-Software. Zur Darstellung der Inhalte werden zusätzlich Programmiersprachen, Skripte und Stylesheets verwendet. Jeder einzelne dieser Komponenten unterliegt einem technologischen Alterungsprozess und bedarf aufwendiger Pflege und Wartung. Viele dieser Softwarekomponenten werden nutzerfreundlich in Content-Management-Systemen wie z.B. WordPress zusammengefasst, die selbst wiederum diesen Alterungsprozessen unterliegen und gewartet werden müssen. Es entsteht das Paradox von einer (scheinbaren) Überfülle auf der einen und Knappheit, d.h. dem schnellen Quellenverlust, auf der anderen Seite (Roy Rosenzweig[^9]). Bei der Erstellung einer neuen Webseite ist es also wichtig, von Anfang an die Bedeutung der Datenarchivierung im Blick zu haben. Dies ermöglicht die langfristige Bewahrung der auf der Seite veröffentlichten Informationen. +### Ziel des Dokuments +Webdesigner bauen eine Webseite gewöhnlich unter den Gesichtspunkten Nutzerfreundlichkeit, Performance und Suchmaschinenoptimierung. Zunehmend wichtiger wird es jedoch auch, für langfristige Zugänglichkeit und möglichst vollständige Langzeitarchivierung zu gestalten, was sich auf Struktur, Inhalt, Funktionalität und Front-End-Präsentation auswirkt. Wie also sollte eine Webseite aufgebaut sein, die möglichst langfristig – also mit einem Zeithorizont jenseits von 10 Jahren, wie es die [Standards zur Sicherung guter wissenschaftlicher Praxis](https://wissenschaftliche-integritaet.de/kodex/archivierung/ ) der DFG empfehlen – relevante Informationen bereitstellen soll, sei es online oder in einem Webarchiv? Und was sollte vor der Web-Publikation dabei berücksichtigt werden? +### Zielgruppen +> **Projektverantwortliche** +> Die Handreichung soll vor allem bei der Konzeption von Projekten unterstützen, damit die Projektinhalte möglichst langfristig online verfügbar gehalten werden können. +>> Wichtige Kapitel "Erste Schritte", "Informationsmodelle", "Dateiformate und Datenbanken", "Graphische Darstellungen", "Maschinen-Lesbarkeit", "Webseiten-Archivierung in den Leitlinien zur guten wissenschaftlichen Praxis", "Rechtliche Fragestellungen", "Datenschutz", "Checkliste für die Webseitenarchivierung" + +> **Technische Mitarbeiter, Webdesigner** +> Die Handreichung soll Entwickler und Webdesigner Hinweise geben, welche technischen Parameter und Designentscheidungen Einfluss auf die Langzeitverfügbarkeit und Archivierbarkeit einer Webseite haben. +>> Wichtige Kapitel "Technisches", "Dateiformate und Datenbanken" "Graphische Darstellungen", "Maschinen-Lesbarkeit" + +> **Institutionen** +> Die Handreichung kann zur Erarbeitung interner Standards und Vorgaben dienen, um eigene Webseiten langfristig verfügbar zu halten. Auch kann sie bei der Kommunikation mit Archivierungsinfrastruktureinrichungen hilfreich sein. Dies gilt gleichermaßen bei der Vergabe von Aufträgen, wo sie zur Ableitung von Anforderungen herangezogen werden kann. +### Erste Schritte und wesentliche Fragen +Hier sind einige Punkte, die Sie berücksichtigen sollten: +* Definieren Sie klare Ziele für Ihre Webseite und bedenken Sie was wie vermittelt werden soll. Welche Informationen müssen, sollen oder können erhalten werden? +* Je einfacher der Aufbau der Webseite, desto leichter und sicherer kann die langfristige Verfügbarkeit sichergestellt werden. +* Liegt der Schwerpunkt der Webseite auf dem Inhalt oder Darstelllung und Benutzererfahrung? +* Dynamisch generierte Inhalte können langfristig oft nur schwer oder gar nicht erhalten bleiben. +* Organisieren Sie Ihre Daten auf der Webseite systematisch und verwenden Sie klare Metadaten für eine bessere Suchbarkeit. +* Setzen Sie ein System zur Versionierung von Inhalten ein, um Veränderungen und Entwicklungen Ihrer Webseite nachvollziehbar zu machen. +* Achten Sie auf Zugriffskontrollen und Datenschutzmaßnahmen, um sensible Daten zu schützen. +* Implementieren Sie regelmäßige Backup-Routinen, um die Sicherheit Ihrer Daten zu gewährleisten. +* Erwägen Sie die Speicherung von wichtigen Daten, wie z.B. Datenbanken hinter einer Webseite, auf unabhängigen archivierenden Plattformen, die auf die langfristige Datensicherung spezialisiert sind. +* Überwachen Sie regelmäßig die technologische Alterung eingesetzter Systeme Ihrer Webseite und passen Sie Ihre Archivierungsmethoden an. +* Wählen Sie einen zuverlässigen Webhosting-Anbieter und sorgen Sie für ausreichend Speicherplatz, um zukünftige Datenmengen zu bewältigen. +* Strukturieren Sie Ihre Daten im Voraus für eine mögliche Datenmigration, wenn ein Wechsel des Hosting-Anbieters erforderlich ist oder die Webseite dauerhaft an andere übergeben wird. +* Erwägen Sie die Zusammenarbeit mit Organisationen, die auf die langfristige Archivierung von Daten spezialisiert sind. +* Dokumentieren Sie ausführlich, wie Ihre Daten archiviert und verwaltet werden, um zukünftigen Generationen die Nutzung der Informationen zu erleichtern. +* Bilden Sie Ihr Team und Stakeholder über die Bedeutung der Datenarchivierung aus und sensibilisieren Sie sie für bewährte Praktiken. + +Indem Sie diese Schritte bei der Erstellung Ihrer Webseite berücksichtigen, stellen Sie sicher, dass Ihre digitalen Informationen und kulturelles Erbe für die Zukunft bewahrt werden und langfristigen Mehrwert zu bieten. + +## Informationsmodelle +Verwenden Sie klare und konsistente Informationsmodelle, um die Struktur und Organisation Ihrer Webseite zu definieren und stellen Sie sicher, dass die Informationsmodelle flexibel genug sind, um zukünftige Änderungen und Erweiterungen zu ermöglichen. Die Wahl des Informationsmodells für die Darstellung von Daten einer Webseite hat einen direkten Einfluss auf die digitale Datenarchivierung; dies sollte auch berücksichtigt werden, wenn unterschiedliche Informationsmodelle auf einzelnen Webseiten eines Internetauftritts verwendet werden. Jedes dieser Informationsmodelle besitzt eigene signifikante Eigenschaften, die erhalten werden müssen, damit die Informationen erhalten und dauerhaft sinnvoll nutzbar bleiben. +### Wesentliche Fragen +> Welche Informationsmodelle existieren? +> Welches sind die kritischen Aspekte bei der Archivierung? + +Hier sind exemplarisch verschiedene Informationsmodelle aufgeführt und wie sie sich auf die Archivierung der digitalen Inhalte auswirken: + +**Hierarchisches Informationsmodell** +Hierarchische Modelle strukturieren Informationen in einer Baumstruktur mit Haupt- und Unterkategorien. Wie z.B. in einem Web-Shop können Produkte in Kategorien und Unterkategorien organisiert werden. Die Hierarchie könnte sein: Elektronik (Hauptkategorie) → Smartphones (Unterkategorie) → Android (Unterkategorie). + > Bei der Archivierung ist es wichtig, die Hierarchie und Struktur beizubehalten. Sowohl die Haupt- als auch die Unterkategorien sollten klar erkennbar sein. Metadaten, die die Beziehungen zwischen den Kategorien beschreiben, sind hilfreich. + +**Netzwerk-Informationsmodell** +Das Netzwerk-Modell ermöglicht nichtlineare Navigation, bei der Benutzer von einem Punkt zum anderen springen können. Wikipedia ist ein Beispiel, bei dem Artikel miteinander verknüpft sind. Benutzer können von einem Artikel zum nächsten über interne Links navigieren. +> Die Archivierung erfordert die Erfassung von Hyperlinks und Verweisen, um die Navigation und Verknüpfungen der Webseite zu erhalten. Es ist wichtig, dass Benutzer nahtlos zwischen den verknüpften Inhalten wechseln können. + +**Tabellarisches Informationsmodell** +Tabellenstrukturen ordnen Informationen in Spalten und Zeilen an. In einem Preisvergleichsportal können die Produkte in Zeilen und deren Eigenschaften in Spalten angezeigt werden. +> Die Archivierung erfordert die Aufrechterhaltung der Tabellenstruktur, um sicherzustellen, dass Informationen in den gleichen Spalten und Zeilen wie auf der Webseite angezeigt werden. + +**Ebenenbasiertes Informationsmodell:** +Ebenenbasierte Modelle ermöglichen die interaktive Navigation durch verschiedene Ebenen von Informationen, wobei jede Ebene spezifische Aspekte der Informationen repräsentiert, wodurch komplexe Informationen in klar verständliche Schichten unterteilt werden und eine verständliche Darstellung ermöglicht. Ein Beispiel ist eine interaktive Infografik, bei der Benutzer auf verschiedene Teile der Grafik klicken, um detaillierte Informationen anzuzeigen. Oft steht hier die Art und Weise der Darstellung im Vordergrund. +> Die Archivierung muss die Interaktivität und die Navigation zwischen den Ebenen bewahren, um das ursprüngliche Benutzererlebnis wiederherzustellen. Dies erfordert eine sorgfältige Erfassung von Interaktionen. + +**Listenbasiertes Informationsmodell** +Listen bieten Informationen in einer klaren, linearen Struktur. Ein FAQ-Abschnitt auf einer Webseite ist ein Beispiel für eine listenbasierte Darstellung. +> Bei der Archivierung ist es wichtig, die Reihenfolge und den Listenstil beizubehalten. Die Informationen sollten in der gleichen geordneten Abfolge wiederhergestellt werden. + +**Kartenbasiertes Informationsmodell** +Kartenmodelle werden für geografische Informationen und Standorte verwendet. Beispiele sind Karten-Dienste, bei denen Benutzer auf Standorte klicken, um weitere Details anzuzeigen. +> Die Archivierung kartenbasierter Modelle erfordert die Beibehaltung des geografischen Kontexts, Koordinaten und der interaktiven Kartenfunktionen. + +**Zeitbasiertes Informationsmodell** +Zeitbasierte Modelle betonen die chronologische Abfolge von Informationen. Beispiele sind Zeitachsen, Zeitreihendatenbanken oder Gantt-Diagramme, wo die zeitliche Dimension ein wesentlicher Aspekt der zu organisierenden Daten ist und wichtig für das Verständnis von Abläufen, Entwicklungen und Trends ist. +> Die Archivierung muss die chronologische Reihenfolge und die zeitlichen Beziehungen der Informationen bewahren. Das Wiederherstellen von Ereignissen und Updates ist wichtig. + +Die Archivierung dieser Modelle erfordert sorgfältige Planung und Dokumentation, um die ursprüngliche Struktur und Funktionalität der Webseite zu bewahren. Je nach Modell müssen spezifische Anforderungen und Beziehungen berücksichtigt werden. +## Technisches +### Grundsätzliches +Bei der Archivierung und Nutzung von Webarchiven muss klar sein, dass die archivierte Webseite in den meisten Fällen nur eine Annäherung an die originale Seite ist. Wenn nicht alle Bereiche einer Webseite archiviert werden können, etwa durch nicht zugängliche Bereiche, eingebundene Inhalte, dynamisch generierte Inhalt etc., können für die Auswertung und Nutzung des Archivs "blinde Flecken"[^8] entstehen. Um diesen "blinden Flecken" entgegenzuwirken wird die Orientierung und Einhaltung von technisches Standards empfohlen. Dies kann insgesamt den Zugang, die Archivierung und das Finden von Inhalten verbessern. + +### Wesentliche Fragen +> Welche Webstandards können für die Webseitenarchivierung relevant sein? +> Welche technischen Aspekte sollten beim Aufbau einer Webseite berücksichtigt werden? +> Mit welchen Metadaten sollte die Webseite ausgezeichnet werden? + +#### Überblick Webseitenarchivierung +Webseitenarchivierung bedeutet Inhalt, Struktur, Funktionalität und die Front-End-Präsentation(en) einer Website mithilfe unterschiedlicher Ansätze oder Webarchivierungstools zu erhalten und später erneut zu präsentieren. Es gibt verschiedene Arten, die je nach den Anforderungen und Zielen unterschiedlich eingesetzt werden. Die gängigsten Arten sind + +**1. Statische Archivierung** + +***HTML-Speicherung*** +Es werden statische HTML-Schnapshots der Webseite erstellt und gespeichert. + +***Screenshot-basiert*** +Hierbei werden Screenshots der Webseite zu verschiedenen Zeitpunkten erstellt, um die visuellen Veränderungen im Laufe der Zeit zu dokumentieren. Da es sich lediglich um Abbildungen der Webseite handelt, ist eine Suche oder Interaktion nicht möglich. Dynamisch generierte Inhalte oder auf Nutzerinteraktion ausgelegte Inhalte können derzeit oft nur mit Screenshots bzw. Screencasts und zusätzlichen Text- bzw. Audiobeschreibungen dokumentiert werden. + +**2. Dynamische Archivierung** + +***Crawling und Scraping*** +Webcrawler durchsuchen aktiv das Internet oder bestimmte Internetauftritte, folgen Verlinkungen und extrahieren Inhalte von Webseiten. Die archivierten Webseiten werden oft als WARC-Dateien gespeichert und haben oft nicht den vollen Funktionsumfang der originalen Webseite. + +**3. Archivierungsprojekte und -organisationen:** +Es gibt Organisationen, die sich auf die Archivierung von Webinhalten spezialisiert haben, wie die Wayback Machine von der Internet Archive Foundation. + +**4. Content-Management-Systeme (CMS)** +Einige Content Management Systeme bieten Funktionen zur Versionierung von Inhalten an, die eine Art von Archivierung ermöglichen. Die Nachhaltigkeit und das Format des Archivs sind nicht standardisiert und müssen gegen die Archivanforderungen geprüft werden. + +### W3C-Standards +Das World Wide Web Consortium (W3C) hat einige Standards entwickelt, deren Einhaltung die langfristige Verfügbarkeit gewährleisten können. Diese Standards sorgen für eine bessere Struktur und Konsistenz von Webseiten, was wiederum die Archivierung erleichtert. + +Relevante [W3C-Standards](https://www.w3.org/standards/): + +1. **[HTML (Hypertext Markup Language)](https://html.spec.whatwg.org/multipage/)** +HTML ist der grundlegende Baustein des Webs und wird vom W3C standardisiert. Die Verwendung aktueller HTML-Versionen, wie HTML5, sorgt für eine klare und einheitliche Struktur von Webseiten, was die Archivierung vereinfacht. + +2. **[CSS (Cascading Style Sheets)](https://www.w3.org/Style/CSS/)** +CSS ist ein weiterer Standard des W3C und wird verwendet, um das visuelle Erscheinungsbild von Webseiten zu gestalten. Die Trennung von Inhalt (HTML) und Darstellung (CSS) erleichtert die Erfassung des eigentlichen Inhalts bei der Archivierung. + +3. **[XML (Extensible Markup Language)](https://www.w3.org/XML/)** +XML ist ein Standard zur Strukturierung von Daten, der auch bei der Archivierung von strukturierten Informationen auf Webseiten hilfreich sein kann. + +4. **[Web Annotations](https://www.w3.org/TR/annotation-model/)** +Dieser W3C-Standard ermöglicht das Hinzufügen von Kommentaren, Anmerkungen und Metadaten zu Webinhalten. Dies kann bei der Dokumentation und Interpretation von archivierten Inhalten hilfreich sein. + +5. **[Web Components](https://www.w3.org/TR/?filter-tr-name=&tags%5B%5D=browser)** +Web Components sind eine Sammlung von W3C-Standards, die die Erstellung wiederverwendbarer Webkomponenten erleichtern. Dies kann die Pflege und Wartung von Webarchiven rationalisieren. + +6. **[Linked Data](https://www.w3.org/TR/?tags[0]=data)** +Linked Data-Prinzipien fördern die Vernetzung von Daten im Web. Diese Vernetzung kann bei der Archivierung dazu beitragen, Beziehungen zwischen verschiedenen Webinhalten besser zu verstehen. + +7. **[Zeichensätze](https://www.w3.org/International/questions/qa-what-is-encoding.de)** +Zur korrekten Darstellung der Inhalte und Indexierung in Suchmaschinen ist die Zeichenkodierung, also der eindeutigen Zuordnung von Buchstaben, Ziffern, Sonderzeichen und Symbolen, eindeutig anzugeben. Die Inhalte sollten standardmäßig in UTF-8 codiert werden. + +Diese W3C-Standards tragen dazu bei, die Struktur und Konsistenz von Webinhalten zu gewährleisten, was wiederum die Erfassung und Archivierung von Webseiten vereinfacht. Die Verwendung dieser Standards unterstützt die Langzeitarchivierung und erleichtert die spätere Rekonstruktion von Webinhalten. + +### Robots +Bestimmte Arten von Anweisungen in der ```robots.txt```-Datei können zwar gut für Suchmaschinen-Crawler sein, aber sie können verhindern, dass Archivierungscrawler wichtige Webseiteninhalte erfassen, die für eine genaue Wiederherstellung der Webseite entscheidend sind. Zum Beispiel könnte die Anweisung an Crawler, bestimmte Verzeichnisse wie CSS und JavaScript auf einer Webseite zu meiden, für Suchmaschinen-Crawler nicht viel ausmachen, aber sie würden einen großen Unterschied in der Qualität der archivierten Aufzeichnung machen. + +### Sitemaps, Links und Navigation +Ein Webcrawler kann nur Webseiten erfassen, die ihm bekannt sind. Er funktioniert, indem er Links folgt, was bedeutet, dass er letztendlich nur Seiten archivieren kann, die über Links zugänglich sind. Daraus folgt, dass ein Benutzer, der eine archivierte Webseite nutzt, nur durch das Folgen von Links navigieren kann, da serverseitige Funktionen wie die Suche im Archiv nicht funktionieren. Vermeiden Sie daher, sich ausschließlich auf JavaScript oder andere Techniken zu verlassen, die Links verschleiern könnten, um zu einer bestimmten Seite zu navigieren, und erwägen Sie die Erstellung[^12] einer umfassenden Sitemap, um sicherzustellen, dass der Crawler nichts übersieht und später im Webarchiv problemlos durchsucht und navigiert werden kann. Dies erleichtert die Erfassung und den späteren Zugriff auf Ihre Webseite und deren Inhalte. +Eine Sitemap ist eine strukturierte Liste oder Datei, die Informationen über die Organisation, Hierarchie und Inhalte einer Website enthält. Eine spezielle Art von Sitemap ist eine XML-Sitemap, die v.a. für Suchmaschinen erstellt wird und in XML formatiert ist. Sie enthält Informationen über alle relevanten URLs auf der Website, einschließlich Metadaten wie die Zeit der letzten Aktualisierung, die Häufigkeit der Änderungen und die Priorität der Seiten. Sie ist vor allem für Suchmaschinen gedacht und erleichtert ihnen das effiziente Crawlen und Indexieren der Webseite, ist aber genauso nützlich für Archivierungs-Crawler. + +#### Stabile URLs und Weiterleitung +Um Kontinuität und Zugänglichkeit von Webseitenaufnahmen in Webarchiven zu gewährleisten, ist es entscheidend, stabile URLs beizubehalten und bei Bedarf Weiterleitungen zu verwenden. Die Stabilität einer URL über die Zeit ermöglicht es, eine lückenlose Serie von Webseiten-Snapshots zu erstellen. Wenn eine URL geändert und keine Weiterleitung zur neuen Adresse eingerichtet wird, sinkt die Wahrscheinlichkeit, dass die neue URL beim nächsten Archivierungs-Crawl gespeichert wird. Dies führt praktisch dazu, dass der Zugriff auf die archivierte Webseite vor der URL-Änderung von denen nach der Änderung getrennt wird. Webarchivierungstools sind empfindlich gegenüber der URL-Stabilität, was auch bedeutet, dass URLs mit Sitzungs-IDs von früheren Aufnahmen derselben Ressource getrennt sein können. + +### Metadaten +Verbesserung von Metadaten heben die Lesbarkeit des Inhalts für Suchmaschinen, seine Auffindbarkeit sowie zeitliche Einordnung in Webarchiven. Die Zeitstempel, die mit archivierten Inhalten in einem Webarchiv verknüpft sind, geben an, wann der Crawler die Seite besucht hat, jedoch nicht unbedingt, wann sie veröffentlicht oder aktualisiert wurde. Die Angabe des Veröffentlichungsdatums oder des letzten Updates über den HTTP Last-Modified-Antwortheader und/oder den Text im Dokument hilft dann den Nutzern, den zeitlichen Kontext des Inhalts besser zu verstehen. Zeitstempel sind auch in rechtlichen Verfahren wertvoll, da sie belegen, wann der Inhalt möglicherweise veröffentlicht oder aktualisiert wurde. +Die Verwendung von seitenbezogenen Titeln und Beschreibungselementen `````` erleichtert die Kuratierung von Webseiten durch Webarchive, und verbessert die Darstellung von Suchergebnis-Zusammenfassungen. + +### Webseitentest auf Archivfähigkeit +Auf der Seite [ArchiveReady.com](https://archiveready.com/) kann die Archivierbarkeit der Webseite anhand von u.a. HTML-Validität, Seitenstruktur, Robots.txt, Verlinkung und Sitemap getestet werden. Die Tests in ArchiveReady.com sind bei weitem nicht erschöpfend, geben aber einen ersten Überblick und gute Anhaltspunkte, wo Schwachstellen der getesteten Webseite hinsichtlich Webarchivierung sind. + +## Dateiformate und Datenbanken +Obwohl eine Webseite als eine Einheit wahrgenommen wird, besteht sie aus einer Vielzahl von Dateien und Dateitypen. Die langfristige Pflege einer Webseite bedeutet daher auch die langfristige Pflege dieser Typenvielfalt. Offene Standards und Formate sind daher beim Aufbau einer Webseite proprietären Formaten vorzuziehen. Unabhängig von der Offenheit des Standards spielen auch die allgemeine Verbreitung, Bekanntheit und Dokumentation eine Rolle. + +### Wesentliche Fragen +> Welche Dateiformate werden für die Webseite verwendet? +> Wie nachhaltig sind die eingesetzten Dateiformate? +> Wie ist der Prozess der Datenmigration organisiert? + +### Nachhaltigen Dateiformate + +Empfehlenswert für die Einschätzung von Dateiformaten sind die Nachhaltigkeitsfaktoren der der US-Amerikanischen Library of Congress.[^7] Diese empfiehlt sieben Faktoren für die Einschätzung von Dateiformaten: + +**1. Offenlegung** +Hierbei geht es um die Frage, in wie fern vollständige Spezifikationen und Werkzeuge zur Validierung der technischen Vollständigkeit existieren und ob sie (frei) zugänglich sind. + +**2. Annahme durch Nutzende** +Dies bezieht sich darauf, wie verbreitet das Format ist. Dies umfasst auch die Verwendung als sogenanntes Masterformat, also für die Bereitstellung an Endnutzenden aber auch als Transportformat zwischen technischen Anwendungen. + +**3. Transparenz** +Hiermit ist die Offenheit der digitalen Darstellung für eine direkte Analyse gemeint; beispielsweise die Lesbarkeit mit einem reinen Texteditor. + +**4. Selbstdokumentation** +Die dokumentierenden Objekte enthalten grundlegende beschreibende, technische und andere administrative Metadaten. + +**5. Externe Abhängigkeiten** +Grad der Abhängigkeit eines bestimmten Formats von einer bestimmten Hardware. Dies geht auch einher mit der Frage nach einer voraussichtlichen Komplexität im Umgang mit zukünftigen Abhängigkeiten. + +**6. Auswirkungen von Patenten** +Ausmaß der Beeinträchtigung durch Patente, die sich negativ auf die Fähigkeit von Archivierungseinrichtungen auswirken bestimmte Inhalte in einem Format aufrechtzuerhalten. + +**7. Technische Schutzmechanismen** +Implementierung von Mechanismen wie Verschlüsselung, welche die Aufbewahrung von Inhalten durch ein vertrauenswürdiges Repository verhindern. + +### Dateiformate +Die Wahl der Dateiformate für die Archivierung ist ein wesentlicher Faktor für den Erfolg (oder Misserfolg) einer digitalen Archivierung. Hier hat sich vor allem gezeigt, dass Eigenentwicklungen im Hinblick auf die Langzeitverfügbarkeit ein hohes Risiko des Scheiterns in sich bergen. Sinnvoller ist es dagegen, sich an bestehenden Standards zu orientieren. Ein Standard ist besser als kein Standard. + +Gleichzeitig wird empfohlen, die Dateiformate und die damit verbundene Soft- und Hardware so offen wie möglich und so geschlossen wie nötig zu gestalten. Nicht-proprietäre Formate sind in der Regel durch den Open-Source-Gedanken langfristig erhalten. Und wo dies nicht gegeben ist, kann zumindest der Code, die Dokumentation etc. eingesehen und für das eigene technische Archivierungskonzept nutzbar gemacht werden. + +Dennoch ist es sinnvoll, bei der Wahl der Dateiformate auch community-spezifische Aspekte des eigenen Wissenschaftsgebietes zu berücksichtigen. Der Umgang mit Dateiformaten kann daher nicht verallgemeinert werden. Es empfiehlt sich daher, die eigene Fachcommunity als Zielgruppe mitzudenken. Auch die technischen Gepflogenheiten eines Internetauftritts sollten berücksichtigt werden. + +Auf der Suche nach konkreten Dateiformaten für die Archivierung sind zwei Anlaufstellen besonders zu empfehlen. Die Library of Congress in Washington bietet einen umfassenden Überblick über [langlebige Dateiformate](https://www.loc.gov/preservation/digital/formats/index.html). Besonders empfehlenswert ist dort der [Abschnitt zu qualitativen und funktionalen Faktoren bei der Archivierung von Webseiten](https://www.loc.gov/preservation/digital/formats/content/webarch_quality.shtml). Die Schweizerische Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen (KOST) bietet einen umfassenden [Katalog archivischer Dateiformate](https://kost-ceco.ch/cms/kad_main_de.html). Insbesondere die [Übersicht zu Standards und Richtlinien in der digitalen Archivierung](https://kost-ceco.ch/cms/standards_de.html) eignet sich für eine erste Orientierung in dieser Thematik. + +> **Exkurs Archivformat** +> Neben den archivtauglichen Dateiformaten gibt es auch spezielle Dateiformate für die Archivierung von Webanwendungen. Ein Quasi-Standard für die Archivierung von Webseiten ist [Web ARChive (.warc file)](https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/).[^3] Das WARC-Format bietet eine standardisierte Möglichkeit, verschiedene Arten von Ressourcen, wie HTML, Bilder, Stylesheets und andere Dateien, mit speziellen Metadaten angereichert in einem einzigen Archiv zu speichern. Es ist das Standardformat vieler Archiv-Crawler und Archiv-Dienstleister. +### Datenmigration +Der Punkt der Datenübergabe ist einer der kritischen Momente bei der Archivierung von Webseiten. Er markiert den Übergang vom Arbeits- in den Archivmodus. Die Phase der inhaltlichen Bearbeitung ist damit abgeschlossen. Im Archivmodus findet praktisch keine inhaltliche Bearbeitung oder Überarbeitung mehr statt. Dieser Zeitpunkt der Datenmigration stellt in der Regel eher eine prozessuale als eine technische Herausforderung dar. Denn die Nutzer müssen sich davon verabschieden, dass die "eigene" Webseite nicht mehr unter ihrer (inhaltlichen) Kontrolle steht. Dem steht jedoch der Vorteil der Langzeitarchivierung und damit der Verfügbarkeit von Information und Form gegenüber. + +Die Form der Datenmigration hängt stark von der Struktur und den technischen Gegebenheiten der Webseite ab. Für Internetauftritte, die beispielsweise viele PDF-Dateien enthalten, müssen andere Migrationsstrategien entwickelt werden als für Projektwebseiten, die überwiegend aus html-Elementen bestehen. Dies zeigt zugleich, dass archivfreundliche Plattformen als Basis langfristig einen Vorteil bieten. Weit verbreitete Content Management Systeme wie Wordpress bieten bereits Archivierungsfunktionen und umfangreiche Dokumentation. Open-Source-Systeme bieten hier zugleich den Vorteil, dass es meist Communities mit anderen gibt, die möglicherweise bereits Antworten auf solche Fragen gefunden haben oder gemeinsam danach suchen. Dies kann die Migration von Daten für die Archivierung von Webseiten deutlich vereinfachen. + +## Graphische Darstellungen +Die Wiedergabe von grafischen Elementen einer Webseite im archivierten Zustand ist mit zahlreichen Herausforderungen verbunden. Die Probleme steigen in der Regel exponentiell mit der Komplexität der visuellen Elemente. Je einfacher die technischen Elemente einer Webseite sind, desto besser ist sie in Form und Inhalt zu archivieren. + +### Wesentliche Fragen +> Werden externe Erweiterungen genutzt? +> Welche Bedeutung haben graphische Elemente für die Webseite? +> Welche Bedeutungsinformationen transportieren graphische Elemente? Und wie können sie langfristig bei geringer technischer Komplexität erhalten bleiben? + +### Reduktion von externen Erweiterungen + +Technische Elemente wie Erweiterungen, Plugins, externe Bibliotheken, Online-Datenbanken etc. erhöhen die Komplexität der Anwendung. Ihr Einsatz bedeutet für die Archivierung, dass eine reine Bitstream-Erhaltung in den meisten Fällen nicht ausreicht, um z.B. die grafischen Darstellungen interaktiver Karten zu erhalten. Das Zusammenspiel der technischen Systeme macht es notwendig, dass die Funktionalitäten der Schnittstellen erhalten bleiben. + +Um solche Abhängigkeiten in der Pflege zu reduzieren, empfiehlt es sich, möglichst sparsam mit dynamischen und eingebetteten externen Elementen umzugehen. Durch den Verzicht auf Plugins und individuelle Erweiterungen werden Pfadabhängigkeiten vermieden, so dass die Archivierung weniger komplex und auch langfristig stabiler durchgeführt werden kann. + +### Wiedergabe des visuellen Eindrucks + +Die visuelle Darstellung von Webseiten ist in der Regel eine wesentliche Information, die es bei der Archivierung möglichst vollständig wiederzugeben gilt. Gleichzeitig werden Browser als interpretierende Software für Webseiten ständig weiterentwickelt. Dies führt langfristig zu Problemen bei der Darstellung von z.B. Bildern, grafischen Elementen wie Menübändern, die aber für den ursprünglichen Eindruck einer Webseite wesentlich sind. +Um den visuellen Eindruck von html-basierten Seiten zu erhalten, empfiehlt z.B. die KOST das Format [PDF/A-2 für Hypertext](https://kost-ceco.ch/cms/pdf-a-2-fuer-hypertext.html). Damit können html-Dateien und deren grafische Interpretation wiedergegeben werden. Bei der PDF-Darstellung bleibt die grafische Gestaltung zum Zeitpunkt der Archivierung erhalten. Angesichts der ständigen Weiterentwicklung der Browser-Technologien ist dies ein nicht zu unterschätzender Aspekt für die Langzeitarchivierung wissenschaftlicher Webseiten. + + +### Strategische Planungen zur "Look&Feel" +Bei der Planung der eigenen Webseite ist es daher besonders ratsam, sich über die Anforderungen und Wünsche an die graphische Darstellung im Klaren zu sein. Je komplexer die Gestaltung der Webseite, desto schwieriger gestaltet sich in der Regel die Archivierung der Webseite. Es ist sinnvoll, diesen Zielkonflikt frühzeitig zu thematisieren, um explizite Vorgaben und Maßnahmen zu etablieren. So können die eigenen Anforderungen und die technischen Möglichkeiten in Einklang gebracht werden. +Wird diese Entscheidung aufgeschoben und erst kurz vor der Archivierung getroffen, ist es in der Regel zu spät. Dies kann letztlich auch bedeuten, dass die Webseite doch nicht archiviert und damit unwiderruflich gelöscht wird. + +## Maschinen-Lesbarkeit +Künstliche Intelligenz (KI oder auch AI) steht dank den beeindruckenden Fähigkeiten aktueller Sprachmodelle grell im Rampenlicht. Intelligente Chatbots verdeutlichen eindrucksvoll den aktuellen Stand von Forschung und Entwicklung im Bereich der Textanalyse und Textgenerierung. Der Erfolg von KI-Lösungen hängt jedoch nicht allein davon ab, geeignete Algorithmen für den jeweiligen Anwendungsbereich zu haben, sondern zum Training dieser Sprachmodelle werden wiederum möglichst gut aufbereitete Texte und Daten benötigt. Sollen für ein Forschungsprojekt Texte aus einem Korpus archivierter Webseiten extrahiert werden spielt die Gestaltung der Webseiten eine wichtige Rolle. Eine Webseite kann so aufgebaut sein, dass Textextraktion besonders effizient und genau erfolgen kann. + +### Wesentliche Fragen +> Warum ist Maschinenlesbarkeit wichtig? +> Welche Aspekte sind beim Webdesign dazu zu berücksichtigen? + +Die Umsetzung folgender Praktiken trägt dazu bei, dass Textextraktionstools und Suchmaschinen den Inhalt Ihrer Webseite besser erfassen und interpretieren können: + +**1. Semantische HTML-Struktur** +Verwenden Sie eine klare, semantische HTML-Struktur. Das bedeutet, Verwendung von Überschriftentags (h1, h2, h3, usw.) für Überschriften, Absatztags (p) für Absätze und Listen für Listen. Dies erleichtert die Identifikation und Extraktion von Textelementen. + +**2. Aussagekräftige Klassen und IDs** +Verwenden Sie CSS-Klassen und IDs, um Textelemente zu kennzeichnen, insbesondere wenn sie spezielle Bedeutung haben. Dies erleichtert das gezielte Extrahieren von Text aus bestimmten Abschnitten der Webseite. + +**3. Vermeidung von komplexen Layouts** +Übermäßig komplexe Layouts, insbesondere solche, die hauptsächlich durch CSS und JavaScript generiert werden, können die Textextraktion erschweren. Bemühen Sie sich, ein einfaches und verständliches Layout zu verwenden. + +**4. Strukturierte Metadaten** +Fügen Sie Metadaten wie Autoreninformationen, Erstellungs-, Veröffentlichungs- und Änderungsdaten, sowie Kategorien hinzu. Diese Informationen können bei der Extraktion und beim Verstehen des Kontexts hilfreich sein. + +**5. Alternative Texte für Medien** +Wenn Sie Bilder oder andere Medien verwenden, versehen Sie sie mit alternativem Text (alt-Text), um deren Inhalt zu beschreiben. Dies ist wichtig, um den Textinhalt dieser Elemente zu verstehen. + +**6. Klare Trennung von Inhalten** +Trennen Sie den Haupttextinhalt von Nebeninformationen wie Navigationselementen, Werbung und so weiter. Dies kann mithilfe von HTML-Tags und CSS erreicht werden. + +**7. Nutzung von Microdata und Strukturierten Daten** +Verwenden Sie strukturierte Datenmarkierungen wie Schema.org, um wichtige Informationen auf der Webseite zu kennzeichnen. Suchmaschinen und Textextraktionswerkzeuge können diese Markierungen nutzen, um den Inhalt besser zu verstehen. + +**8. Gültiges HTML und CSS** +Stellen Sie sicher, dass Ihr HTML und CSS den Standards entsprechen. Fehler im Code können die Textextraktion beeinträchtigen. + + +## Webseiten-Archivierung in den Leitlinien zur guten wissenschaftlichen Praxis +Die langfristige Archivierung von Webseiten im wissenschaftlichen Kontext findet in unterschiedlichen normativen Rahmen statt. + +### Wesentliche Frage +> Betreffen die Leitlinien im DFG-Kodex auch die eigene Projektwebseite? +> Gibt es eine institutionelle Regelung zur Archivierung von Projektwebseiten? +> Existieren community-spezifische Standards bei der Webseite-Archivierung? + +### Webseiten-Archivierung im DFG-Kodex + +Grundlegend im bundesdeutschen Zusammenhang sind hierfür zuerst die [DFG "Leitlinien zur Sicherung guter wissenschaftlicher Praxis"](https://www.dfg.de/download/pdf/foerderung/rechtliche_rahmenbedingungen/gute_wissenschaftliche_praxis/kodex_gwp.pdf). Laut dieser sind Wissenschaftler dazu verpflichtet die zugrunde liegenden, zentralen Materialien ihrer Forschung für einen angemessenen Zeitraum aufzubewahren.[^1] Hierunter können auch Projekt-Webseiten fallen. Üblicherweise bezieht sich der Zeitraum auf zehn Jahre nach Projektende. Je nach Fall und Relevanz kann diese Spanne aber auch (freiwillig) verlängert werden. + +### Institutionelle Regelungen zur Webseiten-Archivierung + +Parallel dazu besitzt jede bundesdeutsche Institution in der Wissenschaft eine eigenes Regelwerk zur guten wissenschaftlichen Praxis (GWP).[^2] In diesen internen Regelwerken kann ebenso die Verfügbarkeit von Forschungsergebnissen über das Projektende hinaus klarer geregelt sein. +Gleichzeitig gilt es bei Kooperationsprojekte zu beachten, dass die Partner gegebenenfalls unterschiedliche institutionellen Regelungen unterliegen. Solchen Problemen lässt sich durch eine frühzeitige Klärung, idealiter schon im Kooperationsvertrag bzw. gemeinsamen Drittmittelantrag, beheben. + +### Fachspezifische Perspektive auf die Webseiten-Archivierung + +Fachspezifische Regelungen können ebenso die Archivierung von forschungsgezogenen Webseiten betreffen. So können beispielsweise die [DFG-Fachkollegien fachspezifische Empfehlungen zum Umgang mit Forschungsdaten](https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/forschungsdaten/empfehlungen/index.html) veröffentlichen, welche auch Handlungsempfehlungen bei der Webseite-Archivierung formulieren. Es gilt daher bei der Archivierungsentscheidung auch immer der fachspezifische Kontext des Forschungsprojekts zu beachten. + +## Rechtliche Fragestellungen[^13] +Rechtliche Fragestellungen betreffen vielfach die Archivierung von forschungsbezogenen Webseiten. Ausgehend von der Fragestellung der Urheberschaft entwickeln sich die Handlungsoption für den Umgang mit der zu archivierenden Webseite. Dies können Entscheidungen wie etwa Lizenzierungen, Fristen oder Übertragung des Eigentumsrechts sein. + +### Wesentliche Fragen +> Wie sind die Eigentumsverhältnis bei der Webseite? +> Wer besitzt die Veröffentlichungs- und Verwertungsrechte? +> Hat die Webseite eine Lizenz? +> Wie ist die Abgabe der Webseite an die archivierende Institution geregelt? Gibt es einen Depositalvertrag? + +### Klärung des Eigentumsrechts +Eine der zentralen rechtlichen Fragen bei der Archivierung von Webseiten ist das Eigentumsrecht: Von welchen Person oder Personengruppe ist die Webseite das Eigentum? Besonders im wissenschaftlichen Kontext ist diese Frage häufig nicht pauschal zu beantworten. Denn auf der einen Seite wird eine Projektseite zumeist im Rahmen eines Dienstverhältnisses erstellt. Dem Dienstherrn stände aber Veröffentlichungs- und Verwertungsrechte zu. Auf der anderen Seite steht grundsätzlich dem Urheber das Recht zu einer Publikation zu. Ebenso besteht in der Bundesrepublik nach [GG Art. 5 Abs. 3](https://www.gesetze-im-internet.de/gg/art_5.html) die Freiheit der Forschung. Für die Klärung dieser Sachlage kommt es auf die Details des Beschäftigungsverhältnisses und die jeweiligen vertraglichen Vereinbarungen an.[^4] Beim Outsourcen von Webseiten muss selbstverständlich zusätzlich geklärt werden, wie die Arbeiten von Entwicklungsfirmen und Hosting-Dienstleister bei der Archivierung widergegeben werden. Auch für die Übergabe von Daten und Code von Dienstleister zur archivierenden Institution sollten dringend vorab schon (vertragliche) Vereinbarungen getroffen werden. + +Parallel dazu muss entscheiden werden, wie die Webseite eingeordnet wird. Ist sie überwiegend textlicher Natur und kann somit als wissenschaftliche Publikation gewertet werden? Oder überwiegen Aspekte von Datenbanken samt Architekturen, Verschachtelungen und Verknüpfungen? In einem solchen Fall könnte die Webseite auch als Datenbankwerk nach [UrHrG § 4](https://www.gesetze-im-internet.de/urhg/__4.html) in Betracht kommen.[^5] Auch hier ist nur eine Entscheidung am konkreten Beispiel möglich. Bitte ziehen Sie im Zweifel Experten aus der eigenen Institution zu Rate. + +### Lizenz und Lizenzierungsmöglichkeiten + +Der Eigentümer kann die Webseite mit einer Lizenz versehen. Dies sollte nach Möglichkeit auch geschehen. Durch diesen Rechtsakt wird nämlich explizit gemacht, welche Nutzungsmöglichkeiten seitens Eigentümer eingeräumt werden. Wie bei Software generell gilt es auch im Fall von Webseiten, dass die Kompatibilität von Lizenzen, falls externe Objekte nachgenutzt werden, beachtet werden müssen. Je nach Kontext müssen Webseite-Inhalte und technische Plattform als unterschiedliche rechtliche Entitäten bei der Archivierung behandelt werden. Im Zweifelfall können die Rechtsexperten der eigenen Institution hierbei beratend unterstützend. + +Bei der Suche nach Lizenzen können gängige Adressen wie https://choosealicense.com, https://opensource.org/licenses/ etc. unterstützen. Für Code-Komponenten ist es auf jeden Fall empfehlenswert Software-spezifische Lizenzen auszuwählen. Sie enthalten nämlich einen Haftungsausschluss für fehlerhaften Code, was etwa datenspezifische oder CC-Lizenzen nicht aufweisen. + +### Barrierefreiheit +Die Nutzung von Webseiten kann mit Hindernissen versehen werden. Gerade für Menschen mit einer Behinderung kann dies eine besondere Herausforderung darstellen. Aus diesem Grund muss eine Webseite barrierefrei konzipiert sein. Hergeleitet wird dies durch die EU-Richtlinie 2016/2102 über den barrierefreien Zugang zu Webseiten und mobilen Anwendungen öffentlicher Stellen.[^10] In nationales Recht überführt wurde dies 2019 in Verordnung BITV 2.0.[^11] Diese gilt auch für öffentliche Hochschulen und Forschungseinrichtungen. Bei der Konzeption einer Webseite ist dieses geltende Recht daher zu beachten. + +Für die konkrete Umsetzung sind die [Web Content Accessibility Guidelines (WCAG 2)](https://www.w3.org/WAI/standards-guidelines/wcag/) des W3C ein sinnvoller Standard. Mit [WAI-ARIA](https://www.w3.org/TR/wai-aria/) existieren beispielsweise konkrete Spezifikationen, die für Webseiten und deren barrierefreie Anwendung relevant sind. Gleichzeitig existieren auch viele digitale Werkzeuge, welche unterstützen die Barrierefreiheit einer Webseite zu schätzen. Beispiele hierfür sind etwa der [WCAG Contrast Checker](https://contrastchecker.com/), das [Web Accessibility Evaluation Tool](https://wave.webaim.org/) oder allgemein auch [BITV-Test](https://www.bitvtest.de). + +### Depositum der Webseite + +Das Depositum (aus dem Lateinisch von "Hinterlegtem") einer wissenschaftliche Webseite sollte alle für den Erhalt notwendigen Dateien, Informationen etc. enthalten. Mit dem Akt der Übergabe einher geht, dass die Webseite seitens Eigentümer nicht mehr bearbeitet werden kann. Der Archivmodus ist "read only". Soweit möglich sollten auch die vollumfänglichen Nutzungsrechte an der Webseite auf die archivierende Institution übertragen werden. + +Es ist hierzu in jedem Fall sinnvoll einen Depositalvertrag zwischen Webseiten-Eigentümer und archivierender Institution abzuschließen. Hierdurch wird eine Rechtssicherheit für beide Parteien hergestellt, die klare Rahmen für die Dienstleistung und Erwartungen an die Archivierungen setzen. Notwendig für einen solchen Vertrag ist aber die klare rechtliche Einordnung im Bezug auf das Eigentumsrecht. Denn nur hierdurch ist geklärt, wer den Depositalvertrag rechtsverbindlich schließen darf. Ein solcher Vertrag kann auch Einschränkungen der Benutzung bzw. benutzungsrechtliche Fragen beinhalten. Dies könnten beispielsweise Zugangsbeschränkungen oder Embargofristen sein. + +Für die Archivierung einer Webseite kann die Übertragung der Eigentumsrechte unter Umständen empfehlenswert sein. Hintergrund hierfür ist, dass die erhaltende Institution hierdurch auch kuratorische Maßnahmen wie beispielsweise Datenbankaktualisierungen, Behebung von Sicherheitslücken vornehmen können. Je nach vereinbartem Erhaltungsszenario und Relevanz kann ein solches Vorgehen sinnvoll sein. + +Ein Archivierungsrecht seitens Bibliotheken, ausgelegt als Recht auf eine redundante Speicherung und gegebenenfalls eine Transformation in andere Dateiformate, kann unter Umständen auch durch [UrhG § 60e Abs. 1-3](https://www.gesetze-im-internet.de/urhg/__60e.html) gedeckt sein. Dieser Weg sollte gemeinsame diskutiert werden, ob ein solcher Weg zusätzliche Chancen bietet. + +## Datenschutz +Aspekte des Datenschutzes können auch die Langzeitarchivierung von Webseiten betreffen. Es ist daher sinnvoll so früh wie möglich über Datenschutz nachdenken. Schon bei der Designentscheidung für eine Webseitenstruktur und ihrer technischen Lösung sollte der Datenschutz auch mit Blick auf eine langfristige Erhaltung mitgedacht werden.[^6] + +### Wesentliche Fragen +> Wurden auf der Webseite personenbezogene oder sensible Daten veröffentlicht? +> Liegen Daten der Webseite-Nutzer vor? + +### Datenschutz beim Archivieren von Webseiten + +Der Datenschutz kann bei einer wissenschaftlichen Webseite in zwei Richtungen wirksam werden. Zum einen kann er sich auf den Inhalt der Projektseite beziehen. Bei Forschungsvorhaben mit personenbezogenen Daten kann dies etwa der Fall sein. Hierbei sollte die Seite vor der Archiv-Phase ebenfalls schon nicht oder nur eingeschränkt öffentlich verfügbar sein. Diesen Umstand muss auch die Archivlösung widerspiegeln. + +Zum anderen sind auch die technisch-prozessualen Daten der Nutzenden im Bezug auf den Datenschutz zu bedenken. So können beispielsweise Nutzer-Accounts für das Veröffentlichen und Bearbeiten mit zusätzlichen, persönlichen Information oder sogar lokalen Passwörter vorhanden sein. Wenn diese Angaben für die Nutzung der archivierten Webseite nicht zwingend notwendig sind, sollte in Erwägung gezogen werden diese nicht in den archivierten Zustand mit zu überführen. Ein Möglichkeit könnte beispielsweise auch eine technische Trennung schon im Betrieb von Projektwebseite und Nutzenden-Informationen sein. + +Im Zweifelsfall ist es sinnvoll die lokalen Datenschutzbeauftragten zu kontaktieren. Diese können bei den weiteren Maßnahmen und ihrer Wirksamkeit beratend zur Seite stehen. + +## Use Cases +### Projektende +In vielen Bereichen kann die Konzeption und der Start von Projekten und zugehörigen Webseiten auf einen bewährten Werkzeugkasten zurückgreifen. Jedoch wird dabei nur selten darüber nachgedacht, wie ein Projekt beendet wird, wenn die Förderung ausläuft und was mit den dabei entstandenen Internetseiten passiert. Quellenangaben sind ein wesentlicher Bestandteil des wissenschaftlichen Diskurses und dieser ist darauf angewiesen, dass Informationen dauerhaft weiter zur Analyse, Replikation, Verifikation und Zitation zur Verfügung stehen. +Zu beachten ist hier vor allem, was primär erhalten bleiben soll: Der Webseiteninhalt, die möglicherweise getrennt gespeicherten Forschungsergebnisse oder die Benutzererfahrung? Können die einzelnen Präsentationsschichten gegebenenfalls getrennt archiviert und wieder sinnvoll zusammengesetzt werden? Außerdem ist vor einer Archivierung die Seite auf möglicherweise noch vorhandene persönliche Informationen zu überprüfen, die nicht archiviert werden sollen. + +### Ruhestand +Einen etwas weiteren Zeithorizont als Projektwebseiten haben oft von einzelnen Wissenschaftlern über einen längeren Zeitraum hinweg aufgebaute Webseiten. Diese entwickeln sich über die Jahre zu wichtigen Anlaufstellen innerhalb der wissenschaftlichen Community. Wenn der Betreiber der Webseite in den Ruhestand eintritt soll die Seite aber weiterhin erhalten bleiben. Um dies zu ermöglichen, kommt oft die Übernahme des Hostings durch - idealerweise - einen institutionellen Betreiber in Frage. In einem Off-Boarding-Prozess sind dann die Modalitäten der Übergabe ("Transfer of Ownership") zu klären wie etwa die Übergabe von Passwörtern und Admin-Zugängen oder die Übertragung auf andere Server. Ebenfalls möglich ist die Einrichtung eines stillgelegten Mirrors und die möglicherweise nötige Einrichtung von Weiterleitungen, damit Zitationen und Verlinkungen weiterhin aufgelöst werden können. Je weniger komplex eine Seite aufgebaut ist, desto einfacher kann sie langfristig im Netz erhalten bleiben. + +### Datenvisualisierung. Karten, Diagramme, interaktive Grafiken +Heute müssen Daten nicht nur erhoben, bearbeitet und analysiert, sondern auch angemessen visualisiert werden um Aussagen über sie treffen zu können. Dies führt oft zu sehr komplexen interaktiven Darstellungen, in denen unter Umständen Text und Visualisierung sich sogar dem Lesefortschritt anpassen. Datenvisualisierung sind also ein mächtiges Werkzeug um numerische Fakten darzustellen. Es ist jedoch zu beachten, dass komplexe interaktive Karten nur schwer langfristig erhalten werden können - je mehr unterschiedliche Softwarekomponenten zur Darstellung benötigt werden, desto unwahrscheinlicher. Wenn das Ergebnis einer Visualisierung eine Grafik ist, sollte diese in einem etablierten Format erstellt werden (s. [Dateiformat](#Dateiformate) und [Darstellungen](#Darstellungen)) + +## Beispiele + +### MPDL: Zeitschrift für Naturforschung +nach eigener Service als Webseite wegen geringem Interesse eingestellt; Webseite wurde komplett offline genommen und die entsprechenden PDF-Dateien der Zeitschriften-Jahrgänge als Dataset veröffentlicht: https://doi.org/10.17617/3.GRUJYR. Die ehemalige Domain https://zfn.mpdl.mpg.de leitet nun direkt auf das Dataset weiter. +Die Lösung bei der Webseiten-Archivierung bestand somit darin, dass der Inhalt in anderer Format langfristig erhalten bleibt aber die ursprüngliche Webseite nicht mehr präsentiert wird. Der Inhalt in Format von PDF-Dateien ging dabei vor der Form. + +## Checkliste für Webseiten-Konzipierung +- [ ] Definition der Vermittlungsziele +- [ ] Festlegung einzusetzender Informationsmodelle +- [ ] Konzeption des logischen Webseitenaufbaus +- [ ] Festlegung der eingesetzten Technik +Die Vielfalt muss langfristig beherrschbar bleiben +- [ ] Festlegung der eingesetzten Dateiformate +Möglichst offene und verbreitete Formate nutzen +- [ ] Webdesign-Richtlinien festlegen ("Look & Feel") +Designentscheidungen und graphische Elemente haben direkten Einfluss auf die langfristige Archivierbarkeit der Webseite +- [ ] Identifikation eines Webhostinganbieters +- [ ] Festlegung eines Datenmanagementplans (zumindest aber einer Backup-Routine) +- [ ] Konzeption eines Versionierungskonzepts +Garantiert wissenschaftliche Zitierbarkeit und beugt "Content Drift" vor +- [ ] Datenschutz: Technisches Konzept prüfen +- [ ] Datenschutz: Design-Konzept prüfen +## Checkliste für die Webseiten-Archivierung +- [ ] Identifikation eines geeigneten Webarchivs bzw. Infrastrukturanbieters +- [ ] Identifikation erhaltenswerter Eigenschaften einer Webseite +Mögliche signifikante Eigenschaften: Inhalt (Datenbankinhalte, Text etc.), Darstellung (Grafiken, Kartendarstellungen etc.), Struktur (z.B. zeitliche Abfolge) oder Benutzererfahrung (Animationen, Design, Look & Feel) +- [ ] Einstufung: Welche Informationen müssen, sollen oder können erhalten bleiben +- [ ] Metadatenauszeichnung der Inhalte +Ein Suche steht einem Webarchiv möglicherweise nicht zur Verfügung +- [ ] Klärung von Eigentumsrechten +- [ ] Klärung von Urheberrechten +- [ ] Entfernung urheberrechtlich geschützter Inhalte +- [ ] Prüfung auf datenschutzrelevante Inhalte +- [ ] Einrichtung Zugriffskontrolle und/oder Entfernung datenschutzsensibler Inhalte +- [ ] End-of-project-Release der Webseite erstellen +- [ ] Unabhängige Archivierung von Datenbanken in Forschungsdatenrepositorien +- [ ] Depositum-Vertrag mit archivierender Institution +- [ ] Daten und Software an archivierende Institution transferieren +- [ ] Dokumentation von archivierten Inhalten +- [ ] Dokumentation der angewandten Methoden +- [ ] Bekanntmachung der Archivierung + +## Weitere Hinweise +### Literatur +* Bundesministerium für Bildung und Forschung: „Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken“, 2023, 2. Auflage, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6. +* Dave Bunten und Gregory P. Way: „Long-Term Software Gardening Strategies for Cultivating Scientific Development Ecosystems“, 17.08.2023, https://bssw.io/blog_posts/long-term-software-gardening-strategies-for-cultivating-scientific-development-ecosystems. +* Digital Preservation Coalition (2023): Digital Preservation Documentation: A Guide, http://doi.org/10.7207/documentation-23. +* Bastian Gillner, Martin Hoppenheit und Franziska Klein: „Webarchivierung im Landesarchiv NRW“, in: Archivpflege in Westfalen-Lippe 96 (2022), S. 47–51, https://www.lwl-archivamt.de/media/filer_public/5b/d9/5bd9b059-6a16-4b3f-a6d4-d589343b05ab/47-51_gillner_hoppenheit_klein.pdf. +* European Archives Group of the European Union (EAG): Archiving by Design Whitepaper, 25.05.2023, https://commission.europa.eu/system/files/2023-06/Whitepaper%20AbD_en.pdf +* Michelle Lindlar: „Bewertung & Priorisierung archivierungswürdiger digitaler Objekte in der Praxis“, nestor-Praktikertag 2020, https://www.langzeitarchivierung.de/Webs/nestor/SharedDocs/Downloads/DE/praesentationen/2020praktikertagLindlar.pdf?__blob=publicationFile&v=1. +* Mark C. Miller: „Discontinuing a Research Software Project“, 04.12.2023, https://bssw.io/items/discontinuing-a-research-software-project. +* Laura Niebling: Wissenschaftliche Webseiten -- Vergangenheit, Gegenwart und Zukunft von Wissenschaft im Internet, 2020, https://mediastudies.hypotheses.org/1363. +* Stapelfeldt, Kirsta u. a.: „Strategies for Preserving Digital Scholarship“, The Code4Lib Journal 53 (2022), https://journal.code4lib.org/articles/16370. +* Andreas Weber und Claudia Piesche: „Datenspeicherung, -kuration und Langzeitverfügbarkeit“, in: Markus Putnings, Heike Neuroth und Janna Neumann (Hrsg.): Praxishandbuch Forschungsdatenmanagement, 2021, https://doi.org/10.1515/9783110657807-019, S. 327–356. +* Konstanze Weimer und Astrid Schoger: „Das Dateiformat WARC für die Webarchivierung“, 2021, https://files.dnb.de/nestor/kurzartikel/thema_15-WARC.pdf. + +### Links +* Deutsche Nationalbibliothek: https://www.dnb.de/DE/Professionell/Sammeln/Sammlung_Websites/sammlung_websites_node.html +* GitHub Web Archiving Community https://github.com/ArchiveBox/ArchiveBox/wiki/Web-Archiving-Community +* Nestor: https://www.langzeitarchivierung.de +* nestor-Wiki: Einführung in die LZA, https://wiki.dnb.de/x/ObmkBQ +* nestor-Wiki: Webarchivierung, https://wiki.dnb.de/x/-rSkBQ +* Library of Congress, Creating Preservable Websites, https://www.loc.gov/programs/web-archiving/for-site-owners/creating-preservable-websites/ + +## Endnoten +[^1]: DFG, Leitlinien zur Sicherung +guter wissenschaftlicher Praxis, 2019, Leitlinie 17, S. 22 bzw. https://wissenschaftliche-integritaet.de/kodex/archivierung/. +[^2]: Siehe beispielsweise die [Ludwig-Maximilians-Universität München](https://cms-cdn.lmu.de/media/lmu/downloads/die-lmu/beauftragte/richtlinien-der-lmu-muenchen-zur-selbstkontrolle-in-der-wissenschaft.pdf) und die [Max-Planck-Gesellschaft](https://www.mpg.de/197494/rulesScientificPractice.pdf). +[^3]: Andreas Weber und Claudia Piesche: „Datenspeicherung, -kuration und Langzeitverfügbarkeit“, in: Markus Putnings, Heike Neuroth und Janna Neumann (Hrsg.): Praxishandbuch Forschungsdatenmanagement, 2021, https://doi.org/10.1515/9783110657807-019, S. 349. Siehe auch https://kost-ceco.ch/cms/warc.html. +[^4]:BMBF: „Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken“, 2023, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6, S. 43. +[^5]:BMBF: „Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken“, 2023, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6, S. 33. Auch das Datenbankherrstellerrecht [UrhG § 87 Abs. 2](https://www.gesetze-im-internet.de/urhg/__87a.html) ist noch eine Option. Jedoch greift dieses Recht zum Schutz von Investitionen in Datenbank in wissenschaftlichen Kontexten wahrscheinlich selten. +[^6]:Matthias Bäcker und Sebastian Golla: Handreichung Datenschutz, hg. vom Rat für Sozial- und Wirtschaftsdaten, RatSWD Output 8 (6), 2. vollständig überarbeitete Auflage, Berlin 2020, https://doi.org/10.17620/02671.50, S. 31. +[^7]: https://www.loc.gov/preservation/digital/formats/intro/format_eval_rel.shtml#factors +[^8]:Donig, S., Eckl, M., Gassner, S., & Rehbein, M. (2023). Web archive analytics: Blind spots and silences in distant readings of the archived web. Digital Scholarship in the Humanities, 1-16. https://doi.org/10.1093/llc/fqad014. +[^9]:The American Historical Review, Volume 108, Issue 3, June 2003, Pages 735–762, https://doi.org/10.1086/ahr/108.3.735. +[^10]: Richtlinie 2016/2102 des Europäischen Parlaments und des Rates vom 26. Oktober 2016 über den barrierefreien Zugang zu den Websites und mobilen Anwendungen öffentlicher Stellen, https://eur-lex.europa.eu/legal-content/DE/TXT/PDF/?uri=CELEX:32016L2102. +[^11]: Verordnung zur Schaffung barrierefreier Informationstechnik nach dem Behindertengleichstellungsgesetz (Barrierefreie-Informationstechnik-Verordnung -- BITV 2.0), https://www.gesetze-im-internet.de/bitv_2_0/BJNR184300011.html. Die Verordnung BITV 2.0 enthält in § 2 (2.2) eine Ausnahmeregelung für "*Archive, die weder Inhalte enthalten, die für aktive Verwaltungsverfahren benötigt werden, noch nach dem 23. September 2019 aktualisiert oder überarbeitet wurden*". +[^12]: Ein anschauliches Beispiel für das Konzept einer Sitemap wird gegeben in dem Artikel Rockwell, G., Day, S., Yu, J., Engel, M.: Burying Dead Projects: Depositing the Globalization Compendium. In: Digital Humanities Quarterly, Vol. 8 Number 2, 2014, http://digitalhumanities.org +[^13]: Bitte beachten Sie, dass dieser Text keine rechtliche Beratung darstellt sondern nur über die Thematik informiert, ohne abschließende Gewissheit zu vermitteln. Für eine rechtliche Beratung wenden Sie sich bitte an Ihre jeweilige Rechtsabteilung. diff --git a/Website-Archiving_BestPracticeGuide.md b/Website-Archiving_BestPracticeGuide.md new file mode 100644 index 0000000..149ce08 --- /dev/null +++ b/Website-Archiving_BestPracticeGuide.md @@ -0,0 +1,424 @@ +# The Internet does forget - Guidelines for the archiving of scientific websites +Authors: Andreas Frech (LMU) and Yves Vincent Grossmann (MPDL) + +Version 1.0 - 18/01/2024 + +This text has been machine-translated from German to English and slightly edited for readability and accuracy. + +## Introduction +### Description of the problem +Contrary to the frequently quoted phrase "The Internet forgets nothing!" and the equally frequently cautioned "right to be forgotten", information often disappears quietly and unnoticed, but steadily from the Internet. These phenomena are referred to as "content drift" (changes of web content under the same address), "link rot" (decay of website links) or "reference rot" (decay of citations of web content). They affect the entire spectrum of the internet, from individual websites and publications to social media providers. While it is true that social media posts in particular remain relevant over a medium-term period, long-term availability is anything but guaranteed, even for major market players. In March 2019, it was announced that the social media platform ["MySpace"](https://de.wikipedia.org/wiki/Myspace#Geschichte ) lost around 50 million photos, videos and audio files uploaded between 2003 and 2016 due to a failed server move. 490,000 mp3s were recovered by the Internet Archive in April 2019, but the majority of the data remained lost. In the 2000s, MySpace was the central hub for musicians and music lovers alike on the internet and the disappearance of both data and the platform itself was long as unthinkable as other major contemporary platforms that have since faltered. Every single website on the Internet requires hardware components such as web servers, storage media and network infrastructure, as well as suitable operating systems, database and web server software. Programming languages, scripts and style sheets are also used to display the content. Each of these components is subject to a technological ageing process and requires extensive care and maintenance. Many of these software components are combined in user-friendly content management systems such as WordPress, which are themselves subject to these ageing processes and require maintenance. The result is the paradox of (apparent) abundance on the one hand and scarcity, i.e. the rapid loss of sources, on the other (Roy Rosenzweig[^9]). When creating a new website, it is therefore important to bear the importance of data archiving in mind from the outset. This enables the long-term preservation of the information published on the site. +### Aim of the document +Web designers usually build a website with user-friendliness, performance and search engine optimisation in mind. However, it is also becoming increasingly important to design for long-term accessibility and complete long-term archiving, which has an impact on structure, content, functionality and front-end presentation. So how should a website be structured if it is to provide relevant information, either online or in a web archive, for as long as possible - i.e. with a time horizon of more than 10 years, as recommended by the DFG's [Standards for Safeguarding Good Scientific Practice](https://wissenschaftliche-integritaet.de/kodex/archivierung/ )? And what should be considered before web publication? +### Target groups +> **Project managers** +> The guide is primarily intended to support the conceptualisation of projects so that the project content can be kept available online for as long as possible. +>> Important chapters "First steps", "Information models", "File formats and databases", "Graphical representations", "Machine readability", "Website archiving in the guidelines for good scientific practice", "Legal issues", "Data protection", "Checklist for website archiving" + +> **Technical staff, web designers** +> The handout is intended to provide developers and web designers with information on which technical parameters and design decisions have an influence on the long-term availability and archivability of a website. +>> Important chapters "Technical", "File formats and databases" "Graphical representations", "Machine readability" + +> **Institutions** +> The handout can be used to develop internal standards and guidelines to keep your own websites available in the long term. It can also be helpful when communicating with archiving infrastructure organisations. This also applies to the awarding of contracts, where it can be used to derive requirements. +### First steps and key questions +Here are some points you should consider: +* Define clear objectives for your website and consider what should be communicated and how. What information must, should or can be obtained? +* The simpler the structure of the website, the easier and more secure it is to ensure long-term availability. +* Is the focus of the website on content or presentation and user experience? +* Dynamically generated content is often difficult or impossible to maintain in the long term. +* Organise your data on the website systematically and use clear metadata for better searchability. +* Use a content versioning system to keep track of changes and developments on your website. +* Ensure access controls and data protection measures are in place to protect sensitive data. +* Implement regular backup routines to ensure the security of your data. +* Consider storing important data, such as databases behind a website, on independent archiving platforms that specialise in long-term data protection. +* Regularly monitor the technological ageing of your website's systems and adapt your archiving methods accordingly. +* Choose a reliable web hosting provider and make sure you have sufficient storage space to cope with future data volumes. +* Structure your data in advance for possible data migration if a change of hosting provider is required or the website is permanently transferred to others. +* Consider working with organisations that specialise in the long-term archiving of data. +* Document in detail how your data is archived and managed to make it easier for future generations to use the information. +* Educate your team and stakeholders on the importance of data archiving and sensitise them to best practice. + +By taking these steps into account when creating your website, you will ensure that your digital information and cultural heritage are preserved for the future and provide long-term value. + +## Information models +Use clear and consistent information models to define the structure and organisation of your website and ensure that the information models are flexible enough to allow for future changes and enhancements. The choice of information model for the presentation of data on a website has a direct influence on digital data archiving; this should also be taken into account if different information models are used on individual web pages of a website. Each of these information models has its own significant properties that must be maintained so that the information is preserved and remains useful in the long term. +### Essential questions +> Which information models exist? +> What are the critical aspects of archiving? + +Here are some examples of different information models and how they affect the archiving of digital content: + +**Hierarchical information model** +Hierarchical models structure information in a tree structure with main categories and subcategories. As in a web shop, for example, products can be organised into categories and subcategories. The hierarchy could be: Electronics (main category) → Smartphones (subcategory) → Android (subcategory). + > When archiving, it is important to maintain the hierarchy and structure. Both the main categories and the subcategories should be clearly recognisable. Metadata describing the relationships between the categories is helpful. + +**Network information model** +The network model enables non-linear navigation where users can jump from one point to another. Wikipedia is an example where articles are linked together. Users can navigate from one article to the next via internal links. +> Archiving requires the capture of hyperlinks and references to preserve the navigation and links of the website. It is important that users can move seamlessly between linked content. + +**Tabular information model** +Tabular structures organise information in columns and rows. In a price comparison portal, products can be displayed in rows and their properties in columns. +> Archiving requires the maintenance of the table structure to ensure that information is displayed in the same columns and rows as on the website. + +**Layer-based information model:** +Layer-based models allow interactive navigation through different layers of information, with each layer representing specific aspects of the information, breaking down complex information into clearly understandable layers and allowing for a comprehensible presentation. An example is an interactive infographic where users click on different parts of the graphic to view detailed information. The way in which information is presented is often the main focus here. +> Archiving must preserve interactivity and navigation between layers to recreate the original user experience. This requires careful recording of interactions. + +**List-based information model** +Lists provide information in a clear, linear structure. A FAQ section on a website is an example of a list-based presentation. +> When archiving, it is important to maintain the order and list style. The information should be restored in the same orderly sequence. + +**Map-based information model** +Map models are used for geographical information and locations. Examples include map services where users click on locations to view more details. +> The archiving of map-based models requires the retention of the geographical context, coordinates and interactive map functions. + +**Time-based information model** +Time-based models emphasise the chronological sequence of information. Examples are timelines, time series databases or Gantt charts, where the temporal dimension is an essential aspect of the data to be organised and is important for understanding processes, developments and trends. +> Archiving must preserve the chronological order and temporal relationships of the information. Restoring events and updates is important. + +Archiving these models requires careful planning and documentation to preserve the original structure and functionality of the website. Depending on the model, specific requirements and relationships must be taken into account. +## Technical +### Basics +When archiving and using web archives, it must be clear that in most cases the archived website is only an approximation of the original site. If not all areas of a website can be archived, for example due to inaccessible areas, embedded content, dynamically generated content, etc., "blind spots"[^8] can arise for the evaluation and use of the archive. To counteract these "blind spots", orientation and compliance with technical standards is recommended. This can improve overall access, archiving and finding of content. + +### Essential questions +> Which web standards can be relevant for website archiving? +> Which technical aspects should be taken into account when building a website? +> What metadata should the website be labelled with? + +#### Overview of website archiving +Website archiving means preserving the content, structure, functionality and front-end presentation(s) of a website using different approaches or web archiving tools and presenting them again later. There are different types, which are used differently depending on the requirements and objectives. The most common types are + +**1. Static archiving** + +***HTML download*** +Static HTML snapshots of the website are created and saved. + +***Screenshot based*** +Screenshots of the website are created at different times to document the visual changes over time. As these are only images of the website, it is not possible to search or interact with them. Dynamically generated content or content designed for user interaction can currently often only be documented with screenshots or screencasts and additional text or audio descriptions. + +**2. dynamic archiving** + +***Crawling and scraping*** +Web crawlers actively search the Internet or specific websites, follow links and extract content from websites. The archived websites are often saved as WARC files and often do not have the full functionality of the original website. + +**3. Archiving projects and organisations:** +There are organisations that specialise in archiving web content, such as the Wayback Machine from the Internet Archive Foundation. + +**4. content management systems (CMS)** +Some content management systems offer content versioning features that enable some form of archiving. The sustainability and format of the archive are not standardised and must be checked against the archive requirements. + +### W3C standards +The World Wide Web Consortium (W3C) has developed a number of standards, compliance with which can ensure long-term availability. These standards ensure a better structure and consistency of websites, which in turn facilitates archiving. + +Relevant [W3C standards](https://www.w3.org/standards/): + +1. **[HTML (Hypertext Markup Language)](https://html.spec.whatwg.org/multipage/)** +HTML is the basic building block of the web and is standardised by the W3C. The use of current HTML versions, such as HTML5, ensures a clear and standardised structure of websites, which simplifies archiving. + +2. **[CSS (Cascading Style Sheets)](https://www.w3.org/Style/CSS/)** +CSS is another W3C standard and is used to design the visual appearance of websites. The separation of content (HTML) and presentation (CSS) makes it easier to capture the actual content during archiving. + +3. **[XML (Extensible Markup Language)](https://www.w3.org/XML/)** +XML is a standard for structuring data, which can also be helpful when archiving structured information on websites. + +4. **[Web Annotations](https://www.w3.org/TR/annotation-model/)** +This W3C standard enables comments, annotations and metadata to be added to web content. This can be helpful for the documentation and interpretation of archived content. + +5. **[Web Components](https://www.w3.org/TR/?filter-tr-name=&tags%5B%5D=browser)** +Web Components are a collection of W3C standards that facilitate the creation of reusable web components. This can rationalise the maintenance of web archives. + +6. **[Linked Data](https://www.w3.org/TR/?tags[0]=data)** +Linked data principles promote the networking of data on the web. In archiving, this networking can help to better understand relationships between different web content. + +7. **[Character encoding](https://www.w3.org/International/questions/qa-what-is-encoding.de)** +For correct display of content and indexing in search engines, the character encoding, i.e. the unique assignment of letters, numbers, special characters and symbols, must be clearly specified. Content should be encoded in UTF-8 as standard. + +These W3C standards help to ensure the structure and consistency of web content, which in turn simplifies the recording and archiving of websites. The use of these standards supports long-term archiving and facilitates the later reconstruction of web content. + +### Robots +Certain types of instructions in the ```robots.txt``` file may be good for search engine crawlers, but they can prevent archiving crawlers from capturing important web page content that is critical for accurate web page recovery. For example, instructing crawlers to avoid certain directories such as CSS and JavaScript on a web page might not make much difference to search engine crawlers, but they would make a big difference to the quality of the archived record. + +### Sitemaps, links and navigation +A web crawler can only capture web pages that are known to it. It works by following links, which means that it can ultimately only archive pages that are accessible via links. It follows that a user using an archived website can only navigate by following links, as server-side functions such as searching in the archive do not work. Therefore, avoid relying solely on JavaScript or other techniques that could obfuscate links to navigate to a particular page and consider creating[^12] a comprehensive sitemap to ensure that the crawler does not miss anything and can easily search and navigate the web archive later. This makes it easier to capture and later access your website and its content. +A sitemap is a structured list or file that contains information about the organisation, hierarchy and content of a website. A special type of sitemap is an XML sitemap, which is created primarily for search engines and is formatted in XML. It contains information about all relevant URLs on the website, including metadata such as the time of the last update, the frequency of changes and the priority of the pages. It is primarily intended for search engines and makes it easier for them to crawl and index the website efficiently, but is just as useful for archiving crawlers. + +#### Stable URLs and redirection +To ensure continuity and accessibility of website recordings in web archives, it is crucial to maintain stable URLs and use redirects when necessary. The stability of a URL over time makes it possible to create a seamless series of website snapshots. If a URL is changed and no redirect to the new address is set up, the likelihood that the new URL will be saved in the next archiving crawl decreases. This effectively separates access to the archived web page before the URL change from access after the change. Web archiving tools are sensitive to URL stability, which also means that URLs with session IDs can be separated from previous captures of the same resource. + +### Metadata +Improving metadata enhances the readability of content for search engines, its findability and chronological categorisation in web archives. The timestamps associated with archived content in a web archive indicate when the crawler visited the page, but not necessarily when it was published or updated. Specifying the publish date or last update via the HTTP Last-Modified response header and/or the text in the document then helps users to better understand the temporal context of the content. Timestamps are also valuable in legal proceedings as they prove when the content may have been published or updated. +The use of page-related titles and description elements `````` facilitates the curation of web pages by web archives, and improves the presentation of search result summaries. + +### Web page test for archive readiness +On the [ArchiveReady.com](https://archiveready.com/) page, the archivability of the website can be tested using HTML validity, page structure, Robots.txt, linking and sitemap, among other things. The tests in ArchiveReady.com are by no means exhaustive, but provide an initial overview and good indications of the weak points of the tested website with regard to web archiving. + +## File formats and databases +Although a website is perceived as a single unit, it consists of a large number of files and file types. The long-term maintenance of a website therefore also means the long-term maintenance of this diversity of types. Open standards and formats are therefore preferable to proprietary formats when building a website. Regardless of the openness of the standard, general distribution, familiarity and documentation also play a role. + +### Essential questions +> Which file formats are used for the website? +> How sustainable are the file formats used? +> How is the data migration process organised? + +### Sustainable file formats + +The sustainability factors of the US Library of Congress are recommended for the assessment of file formats.[^7] This recommends seven factors for the assessment of file formats: + +**1. disclosure** +This concerns the extent to which complete specifications and tools for validating technical completeness exist and whether they are (freely) accessible. + +**2. adoption by users** +This refers to how widespread the format is. This also includes its use as a so-called master format, i.e. for provision to end users, but also as a transport format between technical applications. + +**3. transparency** +This refers to the openness of the digital representation for direct analysis; for example, readability with a pure text editor. + +**4. self-documentation** +The documenting objects contain basic descriptive, technical and other administrative metadata. + +**External dependencies** +Degree of dependency of a particular format on a particular hardware. This also goes hand in hand with the question of anticipated complexity in dealing with future dependencies. + +**6. impact of patents** +Extent to which patents adversely affect the ability of archiving facilities to maintain certain content in a format. + +**7. technical protection mechanisms** +Implementation of mechanisms such as encryption that prevent the preservation of content by a trusted repository. + +### File formats +The choice of file formats for archiving is a key factor in the success (or failure) of digital archiving. In particular, it has been shown that in-house developments harbour a high risk of failure with regard to long-term availability. In contrast, it makes more sense to orientate oneself on existing standards. A standard is better than no standard. + +At the same time, it is recommended that the file formats and the associated software and hardware are designed to be as open as possible and as closed as necessary. Non-proprietary formats are generally preserved in the long term thanks to the open source concept. And where this is not the case, at least the code, documentation etc. can be viewed and utilised for your own technical archiving concept. + +Nevertheless, it makes sense to consider community-specific aspects of your own scientific field when choosing file formats. The handling of file formats can therefore not be generalised. It is therefore advisable to consider your own specialised community as a target group. The technical conventions of a website should also be taken into account. + +When searching for specific file formats for archiving, two contact points are particularly recommended. The Library of Congress in Washington offers a comprehensive overview of [long-lived file formats](https://www.loc.gov/preservation/digital/formats/index.html). The [section on qualitative and functional factors in the archiving of websites](https://www.loc.gov/preservation/digital/formats/content/webarch_quality.shtml) is particularly recommended. The Swiss Coordination Office for the Permanent Archiving of Electronic Records (KOST) offers a comprehensive [catalogue of archival file formats](https://kost-ceco.ch/cms/kad_main_de.html). The [Overview of standards and guidelines in digital archiving](https://kost-ceco.ch/cms/standards_de.html) is particularly suitable for an initial orientation in this topic. + +> **Excursus archive format** +> In addition to file formats suitable for archiving, there are also special file formats for archiving web applications. A quasi-standard for archiving websites is [Web ARChive (.warc file)](https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/).[^3] The WARC format offers a standardised way of saving different types of resources, such as HTML, images, stylesheets and other files, enriched with special metadata in a single archive. It is the standard format used by many archive crawlers and archive service providers. +### Data migration +The point of data transfer is one of the critical moments in the archiving of websites. It marks the transition from working mode to archive mode. The content editing phase is now complete. In archive mode, practically no more content editing or revision takes place. This point in data migration is generally more of a procedural challenge than a technical one. This is because users have to say goodbye to the fact that their "own" website is no longer under their (content) control. However, this is offset by the advantage of long-term archiving and thus the availability of information and form. + +The form of data migration depends heavily on the structure and technical circumstances of the website. For websites that contain many PDF files, for example, different migration strategies must be developed than for project websites that consist mainly of html elements. This also shows that archive-friendly platforms offer a long-term advantage as a basis. Widely used content management systems such as Wordpress already offer archiving functions and extensive documentation. Open source systems also offer the advantage that there are usually communities with others who may have already found answers to such questions or are looking for them together. This can significantly simplify the migration of data for the archiving of websites. + +## Graphical representations +The reproduction of graphical elements of a website in an archived state is associated with numerous challenges. The problems usually increase exponentially with the complexity of the visual elements. The simpler the technical elements of a website are, the easier it is to archive in terms of form and content. + +### Essential questions +> Are external extensions used? +> What significance do graphic elements have for the website? +> What meaningful information do graphic elements convey? And how can they be preserved in the long term with low technical complexity? + +### Reduction of external extensions + +Technical elements such as extensions, plugins, external libraries, online databases etc. increase the complexity of the application. For archiving, their use means that pure bitstream preservation is not sufficient in most cases, e.g. to preserve the graphical representations of interactive maps. The interaction of the technical systems makes it necessary for the functionalities of the interfaces to be preserved. + +In order to reduce such dependencies in maintenance, it is advisable to use dynamic and embedded external elements as sparingly as possible. By dispensing with plugins and individual extensions, path dependencies are avoided so that archiving is less complex and also more stable in the long term. + +### Reproduction of the visual impression + +The visual representation of web pages is usually an essential piece of information that needs to be reproduced as completely as possible during archiving. At the same time, browsers are constantly being further developed as interpreting software for websites. In the long term, this leads to problems with the display of e.g. images, graphic elements such as menu bands, which are essential for the original impression of a website. +In order to preserve the visual impression of html-based pages, KOST recommends the [PDF/A-2 for Hypertext](https://kost-ceco.ch/cms/pdf-a-2-fuer-hypertext.html) format, for example. This allows html files and their graphical interpretation to be reproduced. With PDF representation, the graphic design is retained at the time of archiving. In view of the constant further development of browser technologies, this is an aspect that should not be underestimated for the long-term archiving of scientific websites. + + +### Strategic planning for "Look&Feel" +When planning your own website, it is therefore particularly advisable to be clear about the requirements and wishes for the graphical presentation. The more complex the design of the website, the more difficult it usually is to archive the website. It makes sense to address this conflict of objectives at an early stage in order to establish explicit guidelines and measures. In this way, your own requirements and the technical possibilities can be harmonised. +If this decision is postponed and only made shortly before archiving, it is usually too late. Ultimately, this can also mean that the website is not archived after all and is therefore irrevocably deleted. + +## Machine readability +Artificial intelligence (AI) is in the spotlight thanks to the impressive capabilities of current language models. Intelligent chatbots impressively illustrate the current state of research and development in the field of text analysis and text generation. However, the success of AI solutions depends not only on having suitable algorithms for the respective application area, but also on having the best possible texts and data to train these language models. If texts are to be extracted from a corpus of archived websites for a research project, the design of the websites plays an important role. A website can be structured in such a way that text extraction can be carried out particularly efficiently and accurately. + +### Essential questions +> Why is machine readability important? +> What aspects need to be considered in web design? + +Implementing the following practices will help text extraction tools and search engines to better understand and interpret the content of your website: + +**1. Semantic HTML structure** +Use a clear, semantic HTML structure. This means using heading tags (h1, h2, h3, etc.) for headings, paragraph tags (p) for paragraphs and lists for lists. This makes it easier to identify and extract text elements. + +**2. Meaningful classes and IDs** +Use CSS classes and IDs to identify text elements, especially if they have a special meaning. This makes it easier to extract text from specific sections of the website. + +**3. Avoid complex layouts** +Overly complex layouts, especially those generated primarily by CSS and JavaScript, can make text extraction difficult. Endeavour to use a simple and understandable layout. + +**4. Structured metadata** +Add metadata such as author information, creation, publication and modification dates, and categories. This information can be helpful in extracting and understanding the context. + +**5. Alternative texts for media** +If you use images or other media, provide them with alternative text (alt text) to describe their content. This is important to understand the text content of these elements. + +**6. Clear separation of content** +Separate the main text content from secondary information such as navigation elements, adverts and so on. This can be achieved using HTML tags and CSS. + +**7. Use microdata and structured data** +Use structured data markup such as Schema.org to label important information on the website. Search engines and text extraction tools can use these markers to better understand the content. + +**8. Valid HTML and CSS** +Make sure your HTML and CSS are up to standard. Errors in the code can affect text extraction. + + +## Web page archiving in the guidelines for good scientific practice +The long-term archiving of websites in a scientific context takes place within different normative frameworks. + +### Essential question +> Do the guidelines in the DFG Code also apply to your own project website? +> Is there an institutional regulation for archiving project websites? +> Are there community-specific standards for website archiving? + +### Website archiving in the DFG Code + +The [DFG "Guidelines for Safeguarding Good Scientific Practice"](https://www.dfg.de/download/pdf/foerderung/rechtliche_rahmenbedingungen/gute_wissenschaftliche_praxis/kodex_gwp.pdf) are fundamental in the German context. According to these guidelines, scientists are obliged to preserve the underlying, central materials of their research for an appropriate period of time.[^1] This can also include project websites. The period usually refers to ten years after the end of the project. However, depending on the case and relevance, this period can also be (voluntarily) extended. + +### Institutional regulations on website archiving + +At the same time, every German scientific institution has its own set of rules for good scientific practice (GWP).[^2] These internal rules may also clearly regulate the availability of research results beyond the end of the project. +At the same time, it is important to note that the partners may be subject to different institutional regulations in co-operation projects. Such problems can be resolved through early clarification, ideally in the cooperation agreement or joint third-party funding application. + +### Subject-specific perspective on website archiving + +Subject-specific regulations can also affect the archiving of research-related websites. For example, the [DFG review boards can publish subject-specific recommendations for handling research data](https://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/forschungsdaten/empfehlungen/index.html), which also formulate recommendations for website archiving. The subject-specific context of the research project must therefore always be taken into account when making an archiving decision. + +## Legal issues[^13] +Legal issues often affect the archiving of research-related websites. Based on the question of authorship, the options for dealing with the website to be archived develop. These can be decisions such as licensing, time limits or transfer of ownership. + +### Essential questions +> What is the ownership structure of the website? +> Who owns the publication and exploitation rights? +> Does the website have a licence? +> How is the transfer of the website to the archiving institution regulated? Is there a deposit contract? + +### Clarification of ownership rights +One of the central legal questions when archiving websites is the right of ownership: Who owns the website? Especially in a scientific context, this question often cannot be answered in a generalised way. On the one hand, a project website is usually created as part of an employment relationship. However, the employer is entitled to publication and exploitation rights. On the other hand, the author is generally entitled to the right of publication. Similarly, freedom of research exists in the Federal Republic of Germany according to [GG Art. 5 Para. 3](https://www.gesetze-im-internet.de/gg/art_5.html). Clarification of this situation depends on the details of the employment relationship and the respective contractual agreements.[^4] When outsourcing websites, it must of course also be clarified how the work of development companies and hosting service providers is reproduced when archiving. (Contractual) agreements should also be made in advance for the transfer of data and code from the service provider to the archiving institution. + +At the same time, a decision must be made as to how the website is to be categorised. Is it predominantly textual in nature and can it therefore be categorised as a scientific publication? Or do aspects of databases including architectures, nesting and links predominate? In such a case, the website could also be considered a database work according to [UrHrG § 4](https://www.gesetze-im-internet.de/urhg/__4.html).[^5] Here, too, a decision can only be made on the basis of a specific example. If in doubt, please consult experts from your own institution. + +### Licence and licensing options + +The owner can provide the website with a licence. If possible, this should be done. This legal act makes explicit which usage options are granted by the owner. As with software in general, the compatibility of licences must also be taken into account in the case of websites if external objects are reused. Depending on the context, website content and technical platform must be treated as different legal entities when archiving. In case of doubt, the legal experts at your own institution can provide advice and support. + +Common addresses such as https://choosealicense.com, https://opensource.org/licenses/ etc. can provide support in the search for licences. For code components, it is always advisable to select software-specific licences. They contain a disclaimer for faulty code, which data-specific or CC licences do not. + +### Accessibility +The use of websites can be subject to barriers. This can be a particular challenge for people with a disability. For this reason, a website must be designed to be accessible. This is derived from EU Directive 2016/2102 on the accessibility of websites and mobile applications of public sector bodies.[^10] This was transposed into national law in 2019 in Regulation BITV 2.0.[^11] This also applies to public universities and research institutions. This applicable law must therefore be observed when designing a website. + +The [Web Content Accessibility Guidelines (WCAG 2)](https://www.w3.org/WAI/standards-guidelines/wcag/) of the W3C are a useful standard for concrete implementation. With [WAI-ARIA](https://www.w3.org/TR/wai-aria/), for example, there are concrete specifications that are relevant for websites and their accessible use. At the same time, there are also many digital tools that help to assess the accessibility of a website. Examples of this include the [WCAG Contrast Checker](https://contrastchecker.com/), the [Web Accessibility Evaluation Tool](https://wave.webaim.org/) or the [BITV Test](https://www.bitvtest.de). + +### Deposit of the website + +The depositum (from the Latin for "deposited") of a scientific website should contain all the files, information etc. necessary for its maintenance. The act of depositing means that the website can no longer be edited by the owner. The archive mode is "read only". As far as possible, the full rights of use to the website should also be transferred to the archiving institution. + +In any case, it makes sense to conclude a deposit agreement between the website owner and the archiving institution. This creates legal certainty for both parties and sets a clear framework for the service and expectations for archiving. However, a clear legal categorisation with regard to ownership rights is necessary for such a contract. This is the only way to clarify who is authorised to conclude a legally binding deposit contract. Such an agreement can also contain restrictions on use or issues relating to usage rights. These could be, for example, access restrictions or embargo periods. + +For the archiving of a website, the transfer of ownership rights may be advisable under certain circumstances. The background to this is that the preserving institution can also take curatorial measures such as updating the database and rectifying security gaps. Depending on the agreed preservation scenario and relevance, such an approach may make sense. + +An archiving right on the part of libraries, interpreted as a right to redundant storage and, if necessary, transformation into other file formats, may also be covered by [UrhG § 60e para. 1-3](https://www.gesetze-im-internet.de/urhg/__60e.html) under certain circumstances. This path should be discussed together to see whether such a path offers additional opportunities. + +## Data protection +Data protection aspects can also affect the long-term archiving of websites. It therefore makes sense to think about data protection as early as possible. Data protection should be taken into account as early as the design decision for a website structure and its technical solution, also with a view to long-term preservation[^6]. + +### Essential questions +> Has personal or sensitive data been published on the website? +> Is website user data available? + +### Data protection when archiving websites + +Data protection can take effect in two directions on a scientific website. On the one hand, it can relate to the content of the project page. This may be the case for research projects with personal data, for example. In this case, the page should also not be publicly available or only available to a limited extent before the archive phase. The archive solution must also reflect this fact. + +On the other hand, the technical and procedural data of the users must also be considered with regard to data protection. For example, there may be user accounts for publishing and editing with additional personal information or even local passwords. If this information is not absolutely necessary for the use of the archived website, consideration should be given to not transferring it to the archived state. One possibility could be, for example, a technical separation of the project website and user information during operation. + +If in doubt, it makes sense to contact the local data protection officer. They can provide advice on further measures and their effectiveness. + +## Use cases +### End of project +In many areas, the conception and launch of projects and associated websites can draw on a tried-and-tested toolbox. However, little thought is given to how a project ends when the funding comes to an end and what happens to the resulting websites. References are an essential part of scientific discourse and this depends on information being permanently available for analysis, replication, verification and citation. +The main thing to consider here is what should primarily be preserved: The website content, the possibly separately stored research results or the user experience? Can the individual presentation layers be archived separately and reassembled in a meaningful way? In addition, before archiving, the site should be checked for any personal information that may still exist and should not be archived. + +### Retirement +Websites set up by individual scientists over a longer period of time often have a somewhat longer time horizon than project websites. Over the years, these develop into important contact points within the scientific community. When the operator of the website retires, however, the website should continue to be maintained. To make this possible, it is often possible for an institutional operator to take over the hosting - ideally. In an off-boarding process, the modalities of the transfer of ownership must then be clarified, such as the transfer of passwords and admin access or the transfer to other servers. It is also possible to set up a decommissioned mirror and the possible need to set up redirects so that citations and links can still be resolved. The less complex a site is structured, the easier it is to keep it online in the long term. + +### Data visualisation. Maps, diagrams, interactive graphics +Today, data must not only be collected, processed and analysed, but also appropriately visualised in order to be able to make statements about it. This often leads to very complex interactive representations in which text and visualisation may even adapt to the reading progress. Data visualisation is therefore a powerful tool for presenting numerical facts. However, it should be noted that complex interactive maps are difficult to maintain in the long term - the more different software components are required for visualisation, the less likely this is the case. If the result of a visualisation is a graphic, it should be created in an established format (see [File format](#File formats) and [Representations](#Representations)) + +## Examples + +### MPDL: Journal for Nature Research +discontinued after own service as website due to low interest; website was taken completely offline and the corresponding PDF files of the journal volumes published as dataset: https://doi.org/10.17617/3.GRUJYR. The former domain https://zfn.mpdl.mpg.de now redirects directly to the dataset. +The solution for website archiving was therefore to retain the content in a different format in the long term but to no longer present the original website. The content in PDF file format took precedence over the form. + +## Checklist for website design +- [ ] Definition of the communication goals +- [ ] Definition of information models to be used +- [ ] Conceptualisation of the logical website structure +- [ ] Definition of the technology used +The diversity must remain manageable in the long term +- [ ] Definition of the file formats used +Use open and widespread formats wherever possible +- [ ] Define web design guidelines ("look & feel") +Design decisions and graphic elements have a direct influence on the long-term archivability of the website +- [ ] Identify a web hosting provider +- [ ] Definition of a data management plan (or at least a backup routine) +- [ ] Conception of a versioning concept +Guarantees scientific citation and prevents "content drift" +- [ ] Data protection: Check technical concept +- [ ] Data protection: Check design concept +## Checklist for website archiving +- [ ] Identification of a suitable web archive or infrastructure provider +- [ ] Identification of properties of a website worth preserving +Possible significant properties: Content (database content, text, etc.), presentation (graphics, map displays, etc.), structure (e.g. chronological sequence) or user experience (animations, design, look & feel) +- [ ] Categorisation: What information must, should or can be retained +- [ ] Metadata labelling of the content +A search may not be available to a web archive +- [ ] Clarification of property rights +- [ ] Clarification of copyrights +- [ ] Removal of copyrighted content +- [ ] Checking for data protection-relevant content +- [ ] Setting up access control and/or removal of privacy-sensitive content +- [ ] Create end-of-project release of the website +- [ ] Independent archiving of databases in research data repositories +- [ ] Deposit agreement with archiving institution +- [ ] Transfer data and software to archiving institution +- [ ] Documentation of archived content +- [ ] Documentation of the methods used +- [ ] Publicising the archiving + +## Further information +### Literature +* Federal Ministry of Education and Research: "Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken", 2023, 2nd edition, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6. +* Dave Bunten and Gregory P. Way: "Long-Term Software Gardening Strategies for Cultivating Scientific Development Ecosystems", 17 August 2023, https://bssw.io/blog_posts/long-term-software-gardening-strategies-for-cultivating-scientific-development-ecosystems. +* Digital Preservation Coalition (2023): Digital Preservation Documentation: A Guide, http://doi.org/10.7207/documentation-23. +* Bastian Gillner, Martin Hoppenheit and Franziska Klein: "Webarchivierung im Landesarchiv NRW", in: Archivpflege in Westfalen-Lippe 96 (2022), pp. 47-51, https://www.lwl-archivamt.de/media/filer_public/5b/d9/5bd9b059-6a16-4b3f-a6d4-d589343b05ab/47-51_gillner_hoppenheit_klein.pdf. +* European Archives Group of the European Union (EAG): Archiving by Design Whitepaper, 25/05/2023, https://commission.europa.eu/system/files/2023-06/Whitepaper%20AbD_en.pdf +* Michelle Lindlar: "Evaluation & Prioritisation of Digital Objects Worthy of Archiving in Practice", nestor Practitioners' Day 2020, https://www.langzeitarchivierung.de/Webs/nestor/SharedDocs/Downloads/DE/praesentationen/2020praktikertagLindlar.pdf?__blob=publicationFile&v=1. +* Mark C. Miller: "Discontinuing a Research Software Project", 04.12.2023, https://bssw.io/items/discontinuing-a-research-software-project. +* Laura Niebling: Scientific Websites -- Past, Present and Future of Science on the Internet, 2020, https://mediastudies.hypotheses.org/1363. +* Stapelfeldt, Kirsta et al: "Strategies for Preserving Digital Scholarship," The Code4Lib Journal 53 (2022), https://journal.code4lib.org/articles/16370. +* Andreas Weber and Claudia Piesche: "Datenspeicherung, -kuration und Langzeitverfügbarkeit", in: Markus Putnings, Heike Neuroth and Janna Neumann (eds.): Praxishandbuch Forschungsdatenmanagement, 2021, https://doi.org/10.1515/9783110657807-019, pp. 327-356. +* Konstanze Weimer and Astrid Schoger: "Das Dateiformat WARC für die Webarchivierung", 2021, https://files.dnb.de/nestor/kurzartikel/thema_15-WARC.pdf. + +### Links +* German National Library: https://www.dnb.de/DE/Professionell/Sammeln/Sammlung_Websites/sammlung_websites_node.html +* GitHub Web Archiving Community https://github.com/ArchiveBox/ArchiveBox/wiki/Web-Archiving-Community +* Nestor: https://www.langzeitarchivierung.de +* nestor wiki: Introduction to LTA, https://wiki.dnb.de/x/ObmkBQ +* nestor-Wiki: Web Archiving, https://wiki.dnb.de/x/-rSkBQ +* Library of Congress, Creating Preservable Websites, https://www.loc.gov/programs/web-archiving/for-site-owners/creating-preservable-websites/ + +## Endnotes +[^1]: DFG, Guidelines for Safeguarding +good scientific practice, 2019, Guideline 17, p. 22 or https://wissenschaftliche-integritaet.de/kodex/archivierung/. +[^2]: See, for example, [Ludwig-Maximilians-Universität München](https://cms-cdn.lmu.de/media/lmu/downloads/die-lmu/beauftragte/richtlinien-der-lmu-muenchen-zur-selbstkontrolle-in-der-wissenschaft.pdf) and the [Max Planck Society](https://www.mpg.de/197494/rulesScientificPractice.pdf). +[^3]: Andreas Weber and Claudia Piesche: "Datenspeicherung, -kuration und Langzeitverfügbarkeit", in: Markus Putnings, Heike Neuroth and Janna Neumann (eds.): Praxishandbuch Forschungsdatenmanagement, 2021, https://doi.org/10.1515/9783110657807-019, p. 349. See also https://kost-ceco.ch/cms/warc.html. +[^4]:BMBF: "Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken", 2023, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6, p. 43. +[^5]:BMBF: "Urheberrecht in der Wissenschaft Ein Überblick für Forschung, Lehre und Bibliotheken", 2023, https://www.bmbf.de/SharedDocs/Publikationen/de/bmbf/1/31518_Urheberrecht_in_der_Wissenschaft.pdf?__blob=publicationFile&v=6, p. 33. The database owner right [UrhG § 87 para. 2](https://www.gesetze-im-internet.de/urhg/__87a.html) is also still an option. However, this right to protect investments in databases probably rarely applies in academic contexts. +[^6]:Matthias Bäcker and Sebastian Golla: Handreichung Datenschutz, published by the German Council for Social and Economic Data, RatSWD Output 8 (6), 2nd completely revised edition, Berlin 2020, https://doi.org/10.17620/02671.50, p. 31. +[^7]: https://www.loc.gov/preservation/digital/formats/intro/format_eval_rel.shtml#factors +[^8]:Donig, S., Eckl, M., Gassner, S., & Rehbein, M. (2023). Web archive analytics: Blind spots and silences in distant readings of the archived web. Digital Scholarship in the Humanities, 1-16. https://doi.org/10.1093/llc/fqad014. +[^9]:The American Historical Review, Volume 108, Issue 3, June 2003, Pages 735-762, https://doi.org/10.1086/ahr/108.3.735. +[^10]: Directive 2016/2102 of the European Parliament and of the Council of 26 October 2016 on the accessibility of the websites and mobile applications of public sector bodies, https://eur-lex.europa.eu/legal-content/DE/TXT/PDF/?uri=CELEX:32016L2102. +[^11]: Ordinance on the creation of barrier-free information technology in accordance with the Disability Equality Act (Barrier-free Information Technology Ordinance -- BITV 2.0), https://www.gesetze-im-internet.de/bitv_2_0/BJNR184300011.html. Section 2 (2.2) of the BITV 2.0 ordinance contains an exception for "*archives that neither contain content that is required for active administrative procedures nor have been updated or revised* after 23 September 2019". +[^12]: An illustrative example of the concept of a sitemap is given in the article Rockwell, G., Day, S., Yu, J., Engel, M.: Burying Dead Projects: Depositing the Globalisation Compendium. In: Digital Humanities Quarterly, Vol. 8 Number 2, 2014, http://digitalhumanities.org +[^13]: Please note that this text does not constitute legal advice but merely provides information on the subject matter without providing conclusive certainty. For legal advice, please contact your respective legal department.