Datenstandards für die historische
Forschung
Ein White-Paper der SGG

Stand: 10.11.2023, Version 1.0

Standards pour les données numériques de la recherche historique. Livre blanc de la SSH

Dieses Dokument basiert auf einer Vorlage, welche durch die Arbeitsgruppe «Nachhaltige
Datennutzung» der Abteilung Grundlagenerschliessung der Schweizerischen Gesellschaft für
Geschichte (SGG) erarbeitet wurde. Dazu gehörten (teilweise zu unterschiedlichen
Zeitpunkten) Simon Gabay, Tobias Hodel, Moritz Mähr, Stefan Nellen, Barbara Roth-Lochner,
Pascale Sutter, Andrea Voellmin und Karin von Wartburg. Das Papier wurde in Workshops
und durch Freiwillige in einem open peer review erweitert und kritisch diskutiert.

Wir danken allen Beteiligten für das grosse Engagement und die konstruktiven Diskussionen.

Das vorliegende Dokument wurde am 27.2022 von der Abteilung «Grundlagenerschliessung
der SGG» verabschiedet und am 22.11.2022 vom Vorstand der SGG genehmigt.


Grundsätzliches
Das Dokument ist interaktiv und verweist mit Links auf die Überschriften, welche verwandte
Themen abhandeln.


Zielgruppe
Die Zielgruppe dieses Papiers sind Historiker:innen, die mit Daten(-beständen) arbeiten und
forschen, Dokumente erschliessen und online publizieren wollen sowie Informatiker:innen,
die in geschichtswissenschaftlichen Projekten (mit-)arbeiten.


                                                                                             1
Ziel
Das Papier stellt ein Glossar und einen Katalog zur Verfügung mit den wichtigsten Standards
zur Erzeugung von Interoperabilität, sodass digitale Geschichtsprojekte möglichst einfach von
Dritten nachgenutzt und verlinkt werden können. Das Papier fokussiert auf technische
Standards.
Interoperabilität bezeichnet die Anschlussfähigkeit und Austauschbarkeit von Daten und
Informationen über unterschiedliche Systeme und Anbieter:innen hinweg. Dank der
Ausrichtung an Standards und der Weitergabe eigener Daten(-stämme) wird eine
Nachnutzung aktiv gefördert.
Die Orientierung an Standards erlaubt den Anschluss an inter- und transnationale
Forschungsarbeiten, indem Forschungsdaten und -resultate weiterverwendet werden können.
Gleichzeitig vereinfacht die Verwendung von Standards die Archivierung der Datenstämme.1

Das Dokument hat zum Ziel, die Standards aus geschichtswissenschaftlicher Perspektive (in
Anschluss an geisteswissenschaftlichen Perspektiven) widerzuspiegeln, ohne dass
Wertungen bezüglich der verwendeten Technologien abgegeben werden.

Das Dokument besteht aus einer Einleitung, welche die grundlegenden Begriffe einführt,
einem Glossar, das die geläufigsten Begriffe bestimmt, und einem Katalog, der die heute
gebräuchlichen Standards beschreibt. Aufgrund des technischen Wandels ist weder das
Glossar noch der Katalog vollständig oder langfristig gültig. Die datierte und publizierte
Version ist ein Produkt ihrer Zeit. Überarbeitungen werden mit Anpassungen von Formaten
und Technologien notwendig werden.

Die Unabgeschlossenheit des Dokuments soll gleichzeitig aufzeigen, dass nur der gelebte
Umgang mit digitalen Methoden und Daten produktive Diskussionen und Weiterentwicklungen


1
  Wir verwenden den Begriff «Standard» in Abgrenzung zu «Norm». Unter Norm verstehen wir eine
vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte (oder zumindest
angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich gegenüber anderen Arten und
Weisen durchgesetzt hat. Eine Norm ist definiert als eine weithin faktisch (manchmal auch rechtlich) anerkannte
und durch ein Normungsverfahren beschlossene, allgemeingültige sowie veröffentlichte Regel zur Regelung eines
Sachverhaltes. Eine Norm wird beschlossen und veröffentlicht, nachdem sie alle Instanzen eines
Normungsverfahrens durchlaufen hat. Eine solche Norm ist nach EN 45020 ein «Dokument, das mit Konsens
erstellt und von einer anerkannten Institution angenommen wurde und das für die allgemeine und wiederkehrende
Anwendung Regeln, Leitlinien oder Merkmale für Tätigkeiten oder deren Ergebnisse festlegt, wobei ein optimaler
Ordnungsgrad in einem gegebenen Zusammenhang angestrebt wird» (<https://de.wikipedia.org/wiki/Normung>,
Stand: 23.12.2021). Mit der Normung sind oftmals weitere Ziele verbunden wie Rationalisierung, Verminderung der
Vielfalt, Kompatibilität, Gebrauchstauglichkeit und Sicherheit (o.A.: Normung, in: Wikipedia. Online:
<https://de.wikipedia.org/wiki/Normung>, Stand: 23.12.2021).
Ein Standard kann in einem formalisierten oder nicht formalisierten Regelwerk (in einer oder mehreren Regeln oder
einer Norm) beschrieben sein oder sich ungeplant ergeben. In dieser Bedeutung ist der Begriff Standard
insbesondere in den Bereichen Technik und Methodik üblich (<https://de.wikipedia.org/wiki/Standard>, Stand
21.03.2022). Im deutschen Sprachgebrauch ist in den letzten Jahren eine Begriffsverwirrung eingetreten, indem
«Standard» analog zum englischen Begriff standard auch für Normen verwendet wird. Aus dem englischen
Sprachgebrauch kommt der Begriff de-jure-Standard, der sich mit dem deutschen Begriff Norm deckt. Von De-
facto- oder Quasi-Standards spricht man, wenn sich Methoden oder Regeln in der Praxis durchsetzen und nicht
infolge von Vereinbarungen, Gesetzen, Verordnungen oder Ähnlichem gesetzt sind
(<https://de.wikipedia.org/wiki/Standard>, Stand 21.03.2022).


                                                                                                               2
von Theorie und Praxis ermöglichen. Entsprechend befürworten wir eine offensive, offene und
häufige Publikation (selbst) von («dirty») Daten und einen kritischen Umgang mit Daten.


Einleitung

Die folgenden Seiten sollen als Wegweiser für geschichtswissenschaftliche Projekte mit
digitalen Ansätzen dienen, die sich an forschungsfragen-geleiteten Workflows orientieren. In
zwei Teilen wird eine Handreichung für technische Standards und aktuelle
Herangehensweisen an Datenaufbereitung, -management und -auswertung gegeben. Damit
möchten wir den Dialog zwischen Historiker:innen sowie Computerwissenschaftler:innen und
Informationswissenschaftler:innen erleichtern.
Der erste Teil erklärt in Form von Definitionen zentrale Technologien und Ansätzen, die in den
digitalen Geisteswissenschaften Verwendung finden. Im zweiten Teil werden in einem Katalog
technische Standards beschrieben, an denen sich Projekte orientieren können.

Das vorliegende Papier beschäftigt sich mit technischen Datenstandards im
Zusammenhang geschichtswissenschaftlicher Projekte. «Standard» bezeichnet hier eine
vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte
(oder zumindest angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich
gegenüber anderen Arten und Weisen durchgesetzt hat. Dabei spielt es keine Rolle, ob diese
Standards de jure oder de facto zustande gekommen sind.


Daten
Der Plural Daten leitet sich aus dem lateinischen datum ab, was sich mit «Gegebenes»
übersetzen lässt. Der Begriff Daten bezeichnet streng reglementierte, in Zeichen(-ketten) der
sogenannten Syntax kodierte digitale Repräsentationen. Da der Begriff in unterschiedlichen
Formen und Kontexten Verwendung findet, einige Bemerkungen dazu.

Durch semantische Anreicherung werden aus Daten Informationen. Die Vernetzung von
Informationen führt zu (historisierbarem) Wissen. Daten werden hergestellt und aufbereitet.
Die Herstellung und Aufbereitung von Daten ist folglich ein eigener, subjektiver Prozess.
Daten sind so gesehen vielmehr capta (Erwischtes) oder gar facta (Gemachtes) als data
(Gegebenes).2
Der Prozess der Anreicherung lässt sich als Wissenspyramide beschreiben:
    ●   Zeichen werden mittels Syntax zu einer Aussage!"!#$%&!%'($)*!%$+!Datum
    ●   Daten werden über Semantik(en)!%$+%,-%.'%'%!/%0%1*1+(2%+3!41(%5$%&%+!"!#$%&!
        %'($)*!Informationen

    ●   Informationen werden verknüpft und gewertet!"!#$%&!%'($)*!Wissen

Eine besondere Form von Daten sind Forschungsdaten. Darunter verstehen wir sämtliche
Daten, die in einem Forschungsprozess hergestellt werden, z.B. durch Digitalisierung,
Quellenforschungen, Experimente, Messungen, Erhebungen oder Befragungen. Die

2
 Drucker, Johanna: Humanities Approaches to Graphical Display, in: Digital Humanities Quarterly 5 (1),
2011. Online: <http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html>, Stand: 11.03.2016.


                                                                                                    3
Verfügbarkeit und Nachnutzung digitaler Informationen schliesst den möglichst kostenfreien
und barrierearmen Zugang zu Forschungsdaten ein. Entsprechend gehören sowohl Primär-
als auch Metadaten in diese Kategorie.

Der Begriff Primärdaten ist in der Geschichtswissenschaft nicht gebräuchlich, vielmehr wird
von Quellen gesprochen, unabhängig davon, ob diese digital oder analog vorliegen. Aus
Gründen der Konsequenz wird der Begriff Primär- bzw. Urdaten auf den Seiten dieses
Dokuments mit dem Begriff «Quellen» gleichgesetzt. Folglich kann darunter ein Bild, eine
Karte, ein Gegenstand oder ein Text verstanden werden. Grundsätzlich gibt es keine
materielle Form, die nicht als Quelle und entsprechend als Primärdatum verstanden werden
kann.
Wichtig ist die Unterscheidung zwischen analogen und digitalen Quellen. Digital-born Daten
sind historische Quellenstücke, die für ein geschichtswissenschaftliches Forschungsthema
ausgewertet werden sollen und bereits in digitaler Form hergestellt wurden.3 Im Gegensatz
dazu stehen analoge (= physisch, nicht binär abgespeicherte Daten), die erst durch
Digitalisierung (Scanning, Texterkennung, Bildverarbeitung etc.) elektronisch verfügbar
gemacht werden.

Das Gegenstück zu den Primärdaten bilden Metadaten, worunter wir mehr verstehen als
technische Metadaten, die sich auf digitale Dokumente beziehen. Metadaten sind für uns
Beschreibungen von Daten, die sich auch auf analoge Dokumente beziehen.4 Insbesondere
für Metadaten ist die Nutzung von Standards zentral, da dadurch ein reibungsloser Austausch
über Plattformen und Institutionen hinweg gewährleistet werden kann. Metadatenstandards
sind Spezifikationen, die Metadatenterme detailliert beschreiben. Sie dienen der Festlegung
von Elementen und von deren Struktur und Bedeutung und ermöglichen die semantische
Interoperabilität zwischen Anwendungen, die diesen Standard verwenden. Ziel von
Metadatenstandards sind die einheitlichen, maschinenverarbeitbaren Beschreibungen von
Ressourcen und der plattform- und institutionsübergreifende Austausch dieser
Beschreibungen.5

Zur Vernetzung von Daten und Wissensbeständen werden im Bibliotheks-, Informations- und
Dokumentationswesen Normdaten angelegt und verwendet (als Deskriptor in der
Dokumentation). Eine Normdatei ist damit eine Form eines kontrollierten Vokabulars, in dem
festgelegt wird, welche Ansetzung bei der Erschliessung zu verwenden ist. Im Englischen
werden Normdateien als «authority files» bezeichnet. Normdaten dienen zur Identifikation
einer Entität (Person, Ort etc.).

Daten können aufbereitet, verarbeitet, angereichert oder strukturiert bzw. modelliert werden.
Unter Datenaufbereitung versteht man die Beschreibung, Transkription oder andere Formen
der Zuschreibung von Bedeutung. Dazu zählen wir auch die Datenanreicherung bzw.

3
  Beispiele für digital-born Daten: Videospiele; Protokolle, die als Worddokumente abgespeichert
wurden; Fahndungsdatenbanken.
4
  Im Gegensatz dazu, das Verständnis von Metadaten im DaSCH. Dort wird ein grundlegendes Set an
Informationen zu einem Projekt als Metadaten verstanden.
5
  Hartmann, Sarah: Metadatenstandards. Teil 2 der Einführung in die Interoperabilität von Metadaten
und Metdadatenformaten, Göttingen 05.11.2010. Online: <http://www.kim-
forum.org/Subsites/kim/SharedDocs/Downloads/DE/Schulungen/InteroperabilitaetVonMetadaten/teil21.
pdf?__blob=publicationFile>, Stand: 11.05.2017. !"#$%#"&"'()*'+",-.-,"/$,-/.-*.$0'1'METS/MODS2'1'
MARCXML2'1'EAD.


                                                                                                  4
Datenstrukturierung, die (bestenfalls) gemäss Standards erfolgt und zum Ziel hat, Daten um
Informationen anzureichern.

Da Daten eine zentrale Grösse in digitalen Projekten darstellen, sind Datenformate von
immenser Bedeutung, um Anschlussfähigkeit und Datenaustausch zu gewährleisten. In den
Anfängen des digitalen Zeitalters stellten Datenformate ein Hindernis dar, da vielfach auf
proprietäre Formate zurückgegriffen wurde. Seit einigen Jahren erfolgt eine Verständigung auf
freie und/oder maschinenlesbare Formate (PDF!"!XML). In diesem Papier werden
vorwiegend die freien und maschinenlesbaren Formate/Systeme XML und RDF beschrieben.6

Der Entscheid für freie Datenformate erleichtert die langfristige Aufbewahrung und vereinfacht
die Datennachnutzung.

Offene, strukturierte Daten sind ein Schritt zu einem intelligenteren World-Wide-Web, das
nach Tim Berners-Lee als Semantic Web beschrieben werden kann.!6+!0$%&%-!7%*4!&899%+!
6+:8'-;*$8+%+!$+!%$+%'!<'*!1+0!=%$&%!&*'1>*1'$%'*!5%'0%+?!0$%!%$+%!)%&&%'%!@%';')%$*1+(!01'A.!

B;&A.$+%+!%'-C(9$A.*?!;9&!0$%&!)$&9;+(!0%'!D;99!$&*E!F8!&899!0$%!;1*8-;*$&A.%!@%';')%$*1+(!G8+!
6+:8'-;*$8+%+!G%'%$+:;A.*!1+0!G%')%&&%'*!5%'0%+E!"!RDF?!"!RDFS!1+0!"!OWL bilden
grundlegende Bestandteile des Semantic Web. Semantic Web Technologien versprechen die
Extraktion von Informationen anstelle von extrahierten Texten oder Textteilen. Entsprechend
sind potentere Abfrage- und Auswertungsmechanismen denkbar als etwa durch relationale
Datenbanken möglich sind.7

Datenaufbereitung und Daten(re-)präsentation
Die Trennung von Datenaufbereitung (Datenstrukturierung /-modellierung und Erfassung) und
Datenpräsentation hat sich etabliert. Da Erwartungen in Bezug auf die Darstellung von Daten
stark im Fluss sind, erfordert sie eine regelmässige Anpassung der Präsentation, die jedoch
nichts an der Aufbereitung und Strukturierung der Daten ändern soll. Umgekehrt sollen auch
Anpassungen im Datenmodell keine Auswirkungen auf die Präsentation haben.
Die strikte Trennung von Präsentation und Daten führt dazu, dass aufgrund derselben
Datengrundlage unterschiedliche Präsentationen aufgesetzt werden können, die sich jeweils
an ein unterschiedliches Publikum richten.8
Im Buchzeitalter wurde auf die visuelle Wiedergabe von Informationen (Textsatz, Tabellen
etc.) fokussiert. Digitale Daten zeichnen sich jedoch dadurch aus, dass sie mit ihren


6
  Die vorgeschlagenen/beschriebenen Datenstandards entsprechen nicht den Vorgaben der KOST zur
langfristigen Aufbewahrung von Daten.
7
  Kuczera, Andreas: Graphdatenbanken für Historiker. Netzwerke in den Registern der Regesten Kaiser
Friedrichs III. mit neo4j und Gephi., Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte,
05.05.2015, <http://mittelalter.hypotheses.org/5995>. Sogenannte Friend-of-A-Friend (FOAF) Abfragen
sind in relationalen Datenbanken nur mit grossem Aufwand möglich und selten tatsächlich realisiert.
Kuczera, Andreas: Das Deutsche Textarchiv in der Graphenwelt, Mittelalter. Interdisziplinäre Forschung
und Rezeptionsgeschichte, 04.04.2017, <http://mittelalter.hypotheses.org/10025>.
8
  Analog zu: Sahle, Patrick: Digitale Editionsformen. Zum Umgang mit der Überlieferung unter den
Bedingungen des Medienwandels. Teil 2: Befunde, Theorie und Methodik., Bd. 2 / 3, Norderstedt 2013
(Schriften des IDE 8). Online: <http://kups.ub.uni-koeln.de/5352/>. Dort bezogen auf digitale Editionen:
Es handelt sich bei jeglichen Ausgaben jeweils nur um eine mögliche Darstellungs-/Präsentationsart.


                                                                                                      5
Verknüpfungen und in ihrer Gänze nur verlustbehaftet visuell wiedergegeben werden können:
Jede Präsentation ist nur eine mögliche Form der Datenwiedergabe.

Bei allen Hinweisen auf Standardisierung und Strukturierung bleibt der Hinweis auf einen
kritischen Umgang mit digitalen Daten und Infrastrukturen jeglicher Art zentral. Standards und
Infrastrukturen widerspiegeln epistemologische Grundannahmen und sehen (implizite)
Methoden und Praktiken vor. Entsprechend gilt es nach Machtstrukturen zu fragen, die durch
die Daten, die Datenstrukturierung und -wiedergabe gestärkt oder unterstützt werden. Die
intersektionale Forschung in den Digital Humanities zielt aktuell vor allem auf die
Sichtbarmachung und damit offensive Diskussion solcher Probleme.9


Glossar
Im Glossar werden zentrale Begriffe kurz definiert. Die Relevanz für Projekte in den
Geschichtswissenschaften sind kursiv in der rechten Spalte platziert. Grau unterlegt folgen
jeweils Beispiele.


9
  Siehe insbesondere D’Ignazio, Catherine; Klein, Lauren F.: Data Feminism, Cambridge,
Massachusetts 2020. Online: <https://mitpressonpubpub.mitpress.mit.edu/data-feminism>, Stand:
18.03.2022. Jarrett, Kylie: The Digital Housewife. Feminism, Labour and Digital Media, 2016. Losh,
Elizabeth; Wernimont, Jacqueline: Bodies of Information: Intersectional Feminism and the Digital
Humanities, 2018 (Debates in the Digital Humanities). Online:
<https://dhdebates.gc.cuny.edu/projects/bodies-of-information>, Stand: 18.03.2022. Russell, Legacy:
Glitch Feminism. A Manifesto, 2020 und Ortolja-Baird, Alexandra; Nyhan, Julianne: Encoding the
haunting of an object catalogue: on the potential of digital technologies to perpetuate or subvert the
silence and bias of the early-modern archive1, in: Digital Scholarship in the Humanities, 19.10.2021, S.
fqab065. Online: <https://doi.org/10.1093/llc/fqab065>, Stand: 18.03.2022.


                                                                                                           6
Definitionen

Daten


Daten sind einzelne Fakten, Zeitpunkte, kalendarische Angaben etc., die
durch Beobachtung, Messung oder andere Aufzeichungsformen erfasst
worden sind und als zeichenförmige Informationen vorliegen.

Daten können in unterschiedlichen Formen und Strukturierungsgraden
erfasst werden. Das Verständnis von Strukturierung variiert dabei stark und
es gibt keine genauen Abgrenzungen zwischen den verschiedenen Graden
(typischerweise unstrukturierte, semistrukturierte und strukturierte Daten).


Dirty/noisy und clean Data

Daten entstehen nicht aus dem nichts, sondern werden erhoben. Die
Resultate solcher Prozesse sind häufig sog. dirty/noisy data, also
«unsaubere» Daten. Auch diese Daten(-stämme) können sich als wertvoll
und auswertbar für die Forschung erweisen. Datensäuberungsprozesse
können genutzt werden, um die erhobenen Daten in eine Form zu bringen,
die für eine Forschungsfrage zielführender/relevanter ist, sog. clean data.
Prozesse der Datenreinigung führen jedoch immer zu Verlusten und
Umwandlungen, die in der Forschung intensiv diskutiert werden.10


Unstrukturierte Daten

Unstrukturierte Daten liegen in einer nicht formalisierten Struktur vor, wie        Unstrukturierte Daten
etwa Texte aus Digitalisierung und Texterkennung oder                                stammen häufig aus
                                                                                            umfangreichen
Textverarbeitungsprogrammen sowie die meisten Bild-, Audio- und                   Digitalisierungsvorgäng
Videodateien. Sie verfügen über kein Datenmodell, das über technische                          en und sind
Metadaten (Anlage und Verarbeitung der Datei) hinausgehtE!6-!H;.-%+!0%'!              Steinbrüche für das
                                                                                    Auffinden von Bildern
"!Datenaufbereitung wird mittels verschiedener Formen versucht, den                oder Texten. Quantität
                                                                                     nicht Qualität ist das
Daten Struktur(en) zuzuordnen. Automatische und halbautomatische                       Hauptmerkmal der
Verfahren (häufig mit computerlinguistischem Hintergrund) können bei der                       Datenform.
Strukturierung unterstützend eingesetzt werden.


  10
    Siehe insbesondere Rawson, Katie; Muñoz, Trevor: Against Cleaning (Chapter 23), in: Gold,
  Matthew K.; Klein, Lauren F. (Hg.): Debates in the Digital Humanities 2019. Online:
  <https://doi.org/10.5749/j.ctvg251hk>, Stand: 21.03.2022.


                                                                                                       7
OCR gelesene Texte liegen in einer un- bzw. wenig strukturierten Form vor. TXT-Dateien sind
ebenfalls unstrukturierte Textablagen. Ein weiteres Beispiel unstrukturierter Daten sind Texte in
Google Books.


Semi-strukturierte oder schwach strukturierte Daten

Semistrukturierte Daten sind nicht strukturiert, aber im Gegensatz zu
unstrukturierten Daten können sie entweder Metadaten enthalten, etwa
Bilder (Ort, Aufnahmedatum usw.) oder E-Mails (Empfänger, Datum usw.),
und/oder andererseits Tags, wie XML-codierte Texte oder JSON-Dateien.

Zwischen strukturierten und unstrukturierten Daten gibt es ein weites Feld
an Ausprägungen. Die Struktur der Daten kann nur teilweise definiert sein,
z.B. in einem Schlüssel/Wert-Paar, d.h. es ist nur der Sinn des Schlüssels
oder in einer Tabelle nur die Bedeutung der Spalte bekannt, aber nicht die
des Inhalts bzw. dieser liegt in reiner Text-form vor. Solche Daten sind
typischerweise XML-kodierte Texte, Tabellen oder Metadaten zu digitalen
Ressourcen.


Halbstrukturierte Daten: Textedition der Jahrrechnungen der Stadt Basel 1535 bis 1610
(https://gams.uni-graz.at/context:srbas, Stand: 23.12.2021)


Strukturierte Daten

Strukturierte Daten liegen in einer ausserhalb der Daten beschriebenen               Strukturierte Daten
sinngebenden Struktur vor und verlinken möglichst eindeutig identifizierte      lassen sich schnell und
                                                                                 häufig ohne grösseren
Entitäten. Typischerweise handelt es sich um relationale Datenbanken und                        Aufwand
linked data!2*%$95%$&%!);&$%'%+0!;1:!I.%&;1'$!1+0!"!Ontologien).                  weiterverarbeiten und
                                                                                  auswerten. Zentral an
                                                                                 strukturierten Daten ist
                                                                                 die Dokumentation der
                                                                                 Strukturierung, sodass
                                                                                 nachvollzogen werden
                                                                                           kann, welche
                                                                                Strukturierungsentschei
                                                                                    de aufgrund welcher
                                                                                Annahmen/Gegebenhei
                                                                                  ten getroffen wurden.

Hochgradig strukturierte Daten: Amtliches Gemeindeverzeichnis
(https://www.bfs.admin.ch/bfs/de/home/grundlagen/agvch.html, Stand: 23.12.2021)


                                                                                                     8
Zeichensätze/Unicode

Unicode ist ein internationaler Standard, in dem langfristig für jedes                           Die korrekte und
sinntragende Schriftzeichen oder Textelement aller bekannten                               nachhaltige Abbildung
                                                                                               von Zeichen ist für
Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel                 Texteditionen zentral.
ist es, die Verwendung unterschiedlicher und inkompatibler Kodierungen in                   Um Austauschbarkeit
verschiedenen Ländern oder Kulturkreisen zu beseitigen. Unicode wird                         zu ermöglichen, sind
ständig um Zeichen weiterer Schriftsysteme ergänzt.11                                     (universelle) Standards
                                                                                                    anzuwenden.
Zur Wiedergabe der Sonderzeichen, z.B. der kombinierten Zeichen, wird die
Unicode Normalization Form D (NFD) verwendet.

Fehlende Sonderzeichen können beispielsweise via MUFI (Medieval Unicode Font Initiative)
codiert werden. Es gibt sehr viele Fonts, die frei zugänglich sind, z.B. Andron Scriptor
https://mufi.info/m.php?p=mufi&i=968. Weitere umfangreiche Schriften mit grossem Zeichensatz
und zusätzliche Werkzeuge zur Anpassung von Tastaturbelegungen findet man auf sil.org.


  11
       o.A.: Unicode, in: Wikipedia, o.D., <https://de.wikipedia.org/wiki/Unicode>, Stand: 28.04.2017.


                                                                                                               9
Auszeichnungs- und Strukturierungsformen
                                                                                                              Datenmodelle
                                                                                                         operationalisieren
Datenmodell                                                                                         Forschungsfragen. Sie
Ein Datenmodell ist ein formales Modell der zu beschreibenden und zu                                        ermöglichen es,
                                                                                                         Forschungsfragen
verarbeitenden Daten eines Anwendungsbereichs (z.B. einer Datenbank,
                                                                                                    digital zu prozessieren
einer Edition oder aller für ein Forschungsprojekt relevanten, zu erhebenden
                                                                                                           und sichern eine
Daten) und ihrer Beziehung zueinander.12 Datenmodelle ermöglichen                                      höhere Qualität der
komplexe maschinelle Operationen mit den Daten. Wenn sie dabei                                            Daten, indem sie
Standards folgen, ermöglichen sie darüber hinaus auch den Austausch oder                                      Bedingungen
das Zusammenführen von Daten und tragen so zur Nachhaltigkeit bei.13                                    formulieren, denen
                                                                                                    Daten bei der Eingabe
                                                                                                     entsprechen müssen.


Quelle: Körner, Peter: Zwei (kleine) Beispiele für Entity Relationship Diagramme als SVG, online:
https://de.wikipedia.org/wiki/Datei:Er-diagramm.svg


Datenbank

Datenbanken und Datenbankmanagementsysteme sind Systeme zur
Datenverwaltung. Je nach Anwendungsszenario unterscheiden sich ihre
Aufgaben. Dazu gehören die effiziente, widerspruchsfreie, dauerhafte
Speicherung und Darstellung, bzw. Auswertung von Daten. Wichtige
Formen sind relationale Datenbanken und graphbasierte Datenbanken.
Viele Datensysteme garantieren für die basalen Transaktionen (Create,
Read, Update, Delete) gewisse Eigenschaften (Atomicity, Consistency,
Isolation, Durability).


   12
      o.A.: Datenmodell, in: Wikipedia, o.D., <https://de.wikipedia.org/wiki/Datenmodell>, Stand:
   21.12.2021.
   13
      Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hg.): Digital Humanities. Eine Einführung, Stuttgart
   2017, S. 100.


                                                                                                                      10
Relationale Datenbank

Relationale Datenbanken zeichnen sich dadurch aus, dass sie aus                           Forschungsdatenbanke
verknüpften, zweidimensionalen Tabellen gebildet werden. Relationale                        n sind typischerweise
                                                                                                       auf konkrete
Datenbanken sind seit längerer Zeit erprobt und stabil, aber anders als                           Fragestellungen
graphbasierte Datenbanken typischerweise unflexibler bei der Erweiterung                          ausgerichtet und
des Datenbankmodells.                                                                      erlauben die Befüllung
Relationale Datenbanken weisen eine hohe Datenkonsistenz auf.                                  von klar definierten
                                                                                                       Feldern. Die
Normalisierte relationale Datenbanken ermöglichen eine widerspruchsfreie
                                                                                          Anschlussfähigkeit und
Datenhaltung und tragen somit zur Datenkonsistenz bei. Relationale                             die Interoperabilität
Datenbanksysteme bieten zudem Funktionen, mit denen sich                                  müssen bei der Anlage
Integritätsbedingungen definieren und automatisch überprüfen lassen. Bis                   berücksichtigt werden.
heute wird die elektronische Datenverwaltung vom relationalen
Datenbankmodell dominiert.

Ein langjähriges Datenbankprojekt ist das Repertorium Academicum Germanium (http://www.rag-
online.org/, Stand: 23.12.2021), das elaborierte Abfragemöglichkeiten innerhalb der Datenbank
bietet.


Graphbasierte Datenbanken

Graphbasierte Datenbanken definieren sich über die Vernetzung von                              Die Bündelung zu
einzelnen Objekten (und nicht über Tabellen).                                                    Graphen erlaubt
                                                                                             gleichzeitig mehrere
                                                                                                  Aussagen über
Informationen können in Form von Graphen etwa als Triple in RDF                               Entitäten analog zu
gespeichert werden, also in Form vieler simpler Gleichungen bestehend aus                         Datenblättern in
den drei Teilen Subjekt–Prädikat–Objekt.                                                            Datenbanken.

                                                                                            Mit RDF lassen sich
Ein Graph meint also eine Sammlung von Aussagen in Form von                                                flexibel
Vernetzungen, womit mehrere Eigenschaften oder Beziehungen zu einem                           Wissensstrukturen
Objekt beziehungsweise zwischen Objekten ausgedrückt werden können.                          wiedergeben, ohne
                                                                                         dass Normalisierungen/
                                                                                               Anpassungen an
RDF (Resource Description Framework) ist ein von der W3C                                           vorgegebene
verabschiedetes Modell zur flexiblen Repräsentation von Daten als Triple                   Datenstrukturen (wie
(Dreiheiten), bestehend aus Subjekt (zu beschreibende Ressource),                            etwa in relationalen
                                                                                                  Datenbanken)
Prädikat (Eigenschaft) und Objekt (Wert).14!B$*!H#D!>C++%+!%$+:;A.!                      zwangsläufig notwendig
                                                                                                              sind.
/%4$%.1+(%+!45$&A.%+!H%&&81'A%+!;)(%)$90%*!5%'0%+!2@%'5%$&%3E!B$*!H#D!

'%J'K&%+*$%'*%!#;*%+!)$90%+!7%*45%'>%E!L-!"!Vokabulare 1+0!"!Ontologien


  14
     Siehe die Website der W3C: <https://www.w3.org/RDF/>, Stand: 21.03.2022. Aktuell wird bei der W3C an RDF-
  star and SPARQL-star gearbeitet. Dadurch können Aussagen, z.B. hinsichtlich Provenienz von
  Informationen/Annotationen, über ein Triple gemacht werden. Siehe https://w3c.github.io/rdf-star/cg-
  spec/editors_draft.html, https://www.ontotext.com/knowledgehub/fundamentals/what-is-rdf-star/, Stand:
  21.03.2022.


                                                                                                               11
41!0%:$+$%'%+!1+0!;)41)$90%+?!%M$&*$%'*!"!RDFS!2H#DNFA.%-;!:O'!%$+:;A.%!
DK99%3!)45E!0$%!=%)!P+*898(Q!R;+(1;(%!2"!OWL zur Bildung komplexer
Vokabulare).

Triplestore nennt man eine Datenbank, die zur Aufbewahrung von (RDF-
)Triples gebaut ist. Ähnliche Aufgaben erfüllen Graphendatenbanken, die
jedoch weniger spezifisch auf RDF-Technologien zugeschnitten sind. Die
Auslieferung der Triples erfolgt über «Query Languages» (z.B. " SPARQL).

Graphdatenbank sind gegenüber optimierten relationalen Datenbanken
weniger performant und entsprechend langsamer. Die Modellierung erfolgt
explizit und wird dadurch komplexer.

Subjekt–Prädikat–Objekt: Person X – ist Autor von – NN. Damit wird der Aussagesatz gebildet:
«Max Frisch» (Subjekt) «ist der Autor von» (Prädikat) «Homo Faber» (Objekt).
Ein Editionsprojekt, das RDF als Technologie nutzt: Euler Edition der «Christian Apocryphal
Literature»: <https://www.unil.ch/irsb/fr/home/menuinst/recherche/editer-la-litterature-apocryphe-
chretienne-1.html>, Stand: 18.03.2022.


XML (eXtensible Markup Language)/Textauszeichnung

XML ist eine Auszeichnungssprache, die verwendet wird, um den Austausch            Das freie Format und
von Daten zu erleichtern. In XML können die Daten unterschiedliche                                    die
                                                                                    Maschinenlesbarkeit
Formen annehmen, etwa als Metadaten (z.B. bibliografische Informationen)           machen XML zu einer
oder auch als Daten selbst (z.B. Editionen).                                                   sinnvollen
                                                                                 Aufbereitungsform von
Mit Textauszeichnung ist die strukturierte Auszeichnung (häufig nach            strukturierten Daten, die
                                                                                     als Texte vorliegen.
Schemata) von digitalen Texten gemeint, meist in Form von XML. XML
(Extensible Markup Language) ist eine Metasprache, mit der Markup-
Sprachen definiert werden können, insbesondere ihre Elemente, deren
Attribute und deren Beziehungen zueinander.

Mit XML können Texte strukturiert, mit Informationen angereichert und
maschinell lesbar gemacht werden; dabei bleiben die Dateien auch für
Menschen lesbar. Geschieht die Auszeichnung nach definierten Standards,
können die annotierten Dokumente ausgetauscht und vernetzt werden.
Mit XML-Schemata lassen sich Markup-Sprachen formal definieren. XML-
basierte Markup-Sprachen bzw. unter ihrer Verwendung erstellte
Dokumente sind geordnete Hierarchien (Baumstrukturen). XML ist eine
offene Sprache, weshalb die Daten nur mit Schemata bzw. der Verwendung
von Standards verstanden und nachgenutzt werden können.

I%M*%0$*$8+%+!5%'0%+!.%1*%!*QJ$&A.%'5%$&%!$+!SBR!1-(%&%*4*!1+0!+;A.!@8'(;)%+!&J%4$:$&A.%'!

<1&4%$A.+1+(&&J';A.%+!2"!TEI?!"!CEI?!"!MEI) getaggt.


                                                                                                    12
Struktur einer typischen XML-Datei nach TEI:
<TEI>
     <teiHeader>
             <!-- Metadaten-->
     </teiHeader>
  <body>
   <text>
       <!-- Editionstext-->
      <p>
           <orgName> <!-- ausgezeichnete Entität--></orgName>
      </p>
   </text>
  </body>
</TEI>


Schema

                                                                                                Erst durch die
T$+!FA.%-;!$&*!%$+%!:8'-;9%!/%&A.'%$)1+(!0%'!F*'1>*1'!G8+!#;*%+E!
                                                                                             Anwendung von
Schemata sind sprachlich artikulierte Definitionen, zum Aufbau einer Datei                     Schemata wird
und definieren, wie unterschiedliche Teile der Auszeichnung einer                              (automatisiert)
→!Ontologie miteinander zusammenhängen. «Ein Schema erlaubt es [...],                 nachvollziehbar, welche
                                                                                        Auszeichnungen und
bei [...] der Erfassung von Daten gemeinsame Regeln zu verwenden, und
                                                                                          Kombinationen von
damit sicherzustellen, dass bestimmte Informationen auch erfasst werden                     Auszeichnungen
oder bestimmte Strukturen ausgeschlossen sind.»15                                                     erlaubt,
                                                                                           beziehungsweise
FA.%-;*;!0$%+%+!0%'!"!Interoperabilität.
                                                                                                 möglich sind.
In XML und RDF lassen sich Schemata anwenden.

Das Schema validiert, dass die Daten wohlgeformt (well formed), aber nicht
unbedingt gültig (valid) sind, d. h. das Schema kontrolliert nicht, ob die
Daten den Regeln des Modells (z. B. der Semantik der TEI) entsprechen.


XML Schema

Zur Kontrolle und Validierung von XML-Dateien können Schemata verknüpft
werden. Dadurch wird es möglich, gewisse Auszeichnungen nur an klar
definierten Stellen zu erlauben und damit Austausch und Interpretation der
Daten zu erleichtern. Schemata sind restriktiv und bilden die Syntax von
XML-Codes. Schemata unterstützen darüber hinaus die Datenerfassung,
indem XML-Editoren kontextabhängig erlaubte Werte anbieten.


  15
    Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hg.): Digital Humanities. Eine Einführung, Stuttgart
  2017, S. 135.


                                                                                                         13
Es ist zwischen den Sprachen zur Validierung der Grammatik (XML
Schema, Relax NG) und Schematron zu unterscheiden, wobei Letztere als
Ergänzung zu Ersteren zu verstehen ist.

Im Falle der TEI wird das Schema automatisch aus ODD (One Document
Does it all) erzeugt, das es ermöglicht, dem Schema eine in natürlicher
Sprache verfasste Dokumentation zuzuordnen.


RDF Schema


H#DF!2H#DNFA.%-;3!$&*!%$+%!T'5%$*%'1+(!G8+!"!RDF!41'!/$901+(!G8+!

2%$+:;A.%+3!"!Vokabularen!1+0!"!Ontologien. Damit lassen sich Klassen
(Typen) von Ressourcen und ihre möglichen Eigenschaften definieren. Die
Notation basiert auf RDF.16

Im Kontext von Metadaten bedeutet die Anwendung von Schemata, deren maschinellen
systemübergreifenden Austausch unter möglichst geringem Aufwand.17


Ontologie

                                                                                   Mit Hilfe von Ontologien
P+*898($%+!&$+0!&*'1>*1'$%'*%!#;*%+?!0$%!;+.;+0!%$+%&!%$+0%1*$(!0%:$+$%'*%+!
                                                                                        sind Informationen
1+0!08>1-%+*$%'*%+!"!Datenmodells den historischen Diskurs über die                            explizit (ohne
                                                                                                 verborgene
Wirklichkeit, d.h. Informationen über Entitäten (Orte, Konzepte, Berufe etc.),       Annahmen), unifiziert
deren Merkmale und Beziehungen (Äquivalenz, Hierarchie etc.) samt den               und maschinenlesbar.
Metadaten zu ihrer Definition und Entstehung abbilden.
                                                                                                             .

T$+4%9+%!6+:8'-;*$8+%+,B%'>-;9%,/%4$%.1+(%+!>C++%+!;1:!"!Vokabularen!
)45E!"!I.%&;1'$!)%'1.%+E

Vokabular
Ein (kontrolliertes) Vokabular ist eine Schlagwortliste mit einer Anzahl von
Wörtern, die definiert vorliegen bzw. zu Projektbeginn definiert werden.


  16
     Siehe dazu die Definition der W3C: <https://www.w3.org/TR/rdf-schema/>, Stand: 11.05.2017.
  17
     Hartmann, Sarah: Metadatenstandards. Teil 2 der Einführung in die Interoperabilität von Metadaten
  und Metdadatenformaten, Göttingen 05.11.2010. Online: <http://www.kim-
  forum.org/Subsites/kim/SharedDocs/Downloads/DE/Schulungen/InteroperabilitaetVonMetadaten/teil21.
  pdf?__blob=publicationFile>, Stand: 11.05.2017.


                                                                                                        14
Thesaurus
Thesauri sind kontrollierte Vokabulare, die so strukturiert sind, dass sowohl             Thesauri helfen der
hierarchische als auch netzwerkartige Beziehungen ausgedrückt werden                         wissenschaftlich
                                                                                       fundierten inhaltlichen
(können). Ein Thesaurus soll ein Themengebiet beschreiben und                              Erschliessung von
repräsentieren.                                                                         Texten und erlauben
                                                                                               die Suche und
                                                                                           Auszeichnung mit
                                                                                                     heutigen
                                                                                            Begrifflichkeiten.

Jurivoc: Dreisprachiger Thesaurus des Schweizerischen Bundesgerichts und des ehemaligen
Eidgenössischen Versicherungsgerichts.


Adresse/Adressierbarkeit
                                                                                              Erst durch die
L-!#;*%+!(%4$%9*!;1:'1:%+!41!>C++%+?!-1&&!%$+%!<0'%&&$%');'>%$*!(%(%)%+!
                                                                                     Adressierbarkeit wird es
&%$+E!6+&)%&8+0%'%!:O'!"!Semantic Web!<+5%+01+(%+!$&*!0$%!29;+(:'$&*$(%3!              möglich, Ressourcen
                                                                                              zielgenau und
<1:'1:);'>%$*!G8+!#;*%+!+C*$(E!#;';1:!;1:);1%+0!$&*!%&!-C(9$A.?!0$%!                  wiederholt aufzurufen.

#;*%+$+.;9*%!'%(%9-K&&$(!41!%M*';.$%'%+!1+0!0;-$*!;+0%'%!6+.;9*%!

;>*1;9$&$%'*!;+41'%$A.%'+E!78*5%+0$(!0;:O'!&$+0!"!Identifier?!"!URI/IRI!80%'!
"!DOIE!#1'A.!0%+!T$+&;*4!%$+%&!"!Permalinks kann somit ein Datensatz
langfristig aufgerufen werden.

6-!H;.-%+!0%&!U'8V%>*&!"!Metagrid werden dank der Adressierbarkeit der Informationen
Lebensdaten der aufgenommenen Personen unter den Partnern ausgetauscht.


Identifier/Persistent Identifier

Ein Zeichenstring gilt als Identifikationsinstrument, wenn dieser ein Objekt          Über Identifier werden
eindeutig zuordnet.                                                                          Informationen zu
                                                                                     Entitäten adressier- und
Um Änderungen in Identifiern möglichst zu vermeiden, wird empfohlen, eine                           abrufbar.
zufällige Kombination aus Zahlen und Buchstaben zu verwenden und keine
Klarnamen oder ähnliches.

Persistent Identifier ist ein permanenter Identifikator, d.h. die Institution, die
ihn zur Verfügung stellt, garantiert, dass er langfristig erhalten bleibt.

Die Identifikationsnummer einer Person in einer Datenbank ist ein Identifier.


                                                                                                         15
URL

LHR!2L+$:8'-!H%&81'A%!R8A;*8'3!$&*!%$+%!6+*%'+%*;0'%&&%?!0$%!%$+%!
H%&&81'A%?!4E/E!%$+%!=%)&%$*%?!98>;9$&$%'*!1+0!$0%+*$:$4$%'*!&85$%!0;&!

W8+*;>*J'8*8>899!2.K1:$(!"!http/https) definiert.


URI/IRI

URI/IRI (Uniform Resource Identifier/Internationalized Resource Identifier)         Die Vergabe von URI
ist ein eindeutiger Identifikator für eine Ressource. Eine URI/IRI kann aus                 ermöglicht die
                                                                                   Adressierbarkeit, bspw.
einer URL bestehen.                                                                         über Browser.


URN

URN (Uniform Resource Name) ist ein URI mit dem Schema urn. Es handelt
sich um einen dauerhaften, ortsunabhängigen Bezeichner für eine digitale
Ressource.


ARK


Archival Resource Keys (ARKs) dienen als Persistent Identifier oder stabile,
vertrauenswürdige Referenzen für Informationsobjekte. Das ARK-System ist
offen, und jede Einrichtung kann ARKs vergeben, sobald sie sich registriert
hat und eine sogenannte Name Assigning Authority Number (NAAN) besitzt.


DOI

#P6!2#$($*;9!#8A1-%+*!P)V%A*!60%+*$:$%'3!$&*!%$+!%$+0%1*$(%'!1+0!0;1%'.;:*%'!

0$($*;9%'!60%+*$:$>;*8'!:O'!J.Q&$&A.%?!0$($*;9%!80%'!;)&*';>*%!P)V%>*%E!T'!5$'0!
-8-%+*;+!G8'!;99%-!:O'!P+9$+%N<'*$>%9!G8+!5$&&%+&A.;:*9$A.%+!

D;A.4%$*&A.'$:*%+!1+0!#;*%+J1)9$>;*$8+%+!2)&J5E!"!ZENODO) verwendet.


                                                                                                     16
Während URL und URI frei durch den jeweiligen Webmaster vergeben werden können, sind DOI
kostenpflichtig zu beziehen.18 URN werden in der Schweiz durch die Nationalbibliothek vergeben.


Link/Permalink

R$+>!$&*!0$%!W1'4:8'-!G8+!XQJ%'9$+>?!0E.E!%$+!@%'5%$&!;1:!%$+%+!XQJ%'*%M*!

2G(9E!;1A.!"!URL).
                                                                                       Mit Permalinks kann
                                                                                   garantiert werden, dass
T$+!U%'-;9$+>!)%4%$A.+%*!%$+%!"!URL, die dauerhaft bestehen bleibt. Damit                  eine Information
                                                                                    langfristig aufgefunden
wird ein digitales Objekt zitierfähig, da der Link immer auf das Dokument/die                  werden kann.
Ressource verweist.


Datenaustausch/Kommunikation/Vernetzung/Identifikation

Datenabruf und Schnittstellen

                                                                                          Standardisierte
Angebote zum Datenaustausch sind zentral, um eigene Daten, I%M*%!1+0!
                                                                                            Schnittstellen
#8>1-%+*%!0%'!Y::%+*9$A.>%$*!41'!@%':O(1+(!41!&*%99%+E!#;:O'!%M$&*$%'%+!                 ermöglichen das
                                                                                   Aggregieren von Daten
1+*%'&A.$%09$A.%!BC(9$A.>%$*%+Z![)%'!=%)&$*%&?!#85+98;0!2DIU3!80%'!$-!                und Metadaten aus
                                                                                        unterschiedlichen
60%;9:;99!01'A.!0$%!D'%$(;)%!O)%'!"!Schnittstellen!2"!RESTful-API/ SPARQL,                   Quellen/von
                                                                                        unterschiedlichen
SPARQL Protocol and RDF Query Language).                                                       Anbietern.
Die Freigabe über Schnittstellen erlaubt live Abfragen. Die Daten werden bei
Abfragen über Schnittstellen nur bei entsprechenden Berechtigungen
verändert/angepasst.


HTTP

Hypertext-Transfer-Protocol (HTTP) ist ein Datenübertragungsprotokoll
und wird hauptsächlich eingesetzt, um Websites in Webbrowser zu laden.
Über das Protokoll können Daten versandt werden. HTTPS ist die
verschlüsselte Variante des Protokolls, damit kann ein sicherer
Datenverkehr gewährleistet werden.


  18
    Zu den Kosten für DOI, siehe bspw. den Blog von DataCite zum Thema: https://datacite.org/blog/the-
  new-datacite-membership-and-fees-model/.


                                                                                                      17
API/RESTful-API

Eine Programmierschnittstelle (englisch application programming                           REST erlaubt den
interface, wörtlich «Anwendungs-programmier-schnittstelle»), genauer                          Zugriff und die
                                                                                            Anpassung von
Schnittstelle zur Anwendungsprogrammierung, häufig nur kurz API genannt,             eindeutig identifizierten
ist ein Programmteil, der von einem Softwaresystem anderen Programmen                    Ressourcen (bspw.
zur Anbindung an das System zur Verfügung gestellt wird.19                             über URI), aber auch
                                                                                     von Suchabfragen, die
                                                                                               über die URL
Eine RESTful-API (Representational State Transfer Application
                                                                                        mitgegeben werden
Programming Interface) ist eine webbasierte Schnittstelle für den Zugriff auf                        können.
eine Datenbank durch eine Applikation wie einen Webbrowser. Die
Anfragen an eine RESTful-API erfolgen über die verschiedenen Methoden
von HTTP auf URLs mit vordefinierten Pfadsegmenten (GET, DELETE etc.).
Dadurch können Daten gelesen, erzeugt, modifiziert oder gelöscht werden.
Ausgaben können als JSON!1+0!"!XML erfolgen.20
Aus den Abfragen ist es möglich, gewünschte Daten/Informationen zu
extrahieren, wenn die Daten nach Vorgaben strukturiert vorliegen und
entsprechend an eine Auswertung weitergegeben werden.


SPARQL

                                                                                     SPARQL sorgt für eine
SPARQL!$&*!0$%!<):';(%&J';A.%!:O'!H#DN#;*%+);+>%+?!0;-$*!>C++%+!
                                                                                     gezielte Extraktion der
<+:';(%+!;+!%$+%+!"!Triplestore formuliert werden (SPARQL-Endpoint), um                       in Triple-Form
                                                                                                 hinterlegten
gezielt nach Aussagen/Datensätzen (Triples) zu suchen. Ausserdem kann                        Informationen.
SPARQL genutzt werden, Daten (Triples) in einem Triplestore zu erzeugen
(SPARUL: SPARQL/Update).21
Typischerweise werden die Abfrageresultate als XML oder Turtle-Datei mit
einer Zeile pro Resultat ausgegeben.


  19
     o.A.: Programmierschnittstelle, in: Wikipedia, o.D.,
  <https://de.wikipedia.org/wiki/Programmierschnittstelle>, Stand: 21.12.2021.
  20
     Siehe für eine ausführliche Einführung: Rodriguez, Alex: RESTful Web services. The basics, in: IBM.
  Developer Works, 09.02.2015, <http://www.ibm.com/developerworks/library/ws-restful/index.html>,
  Stand: 19.04.2017.
  21
     Siehe für eine ausführliche Dokumentation: W3C SPARQL Working Group: SPARQL 1.1 Overview,
  W3C, 21.03.2013, <https://www.w3.org/TR/sparql11-overview/>, Stand: 19.04.2017.


                                                                                                         18
Export und Datenaustausch

Open Access/Open Source/Open Data

Open Access bedeutet permanenten, freien, kostenlosen und                            Ermöglicht die freie
elektronischen Zugang zu wissenschaftlichen und anderen Publikationen.22              Nachnutzung von
                                                                                    Erschliessungs- und
                                                                                    Forschungsarbeiten.
Um den Zugriff auf die Datenbasis (unabhängig davon, ob es sich um
Softwarecode oder wissenschaftliche Arbeiten handelt) langfristig und                Die Offenlegung von
barrierefrei zu gewährleisten, verfolgt eine Vielzahl von namhaften                    Codes und Texten
                                                                                 erlaubt die einfache und
Institutionen Open Access/Open Source Strategien.23
                                                                                  korrekte Nachnutzung.
                                                                                     Weiterentwicklungen
Frei verfügbare und ohne gewichtige Einschränkung nutzbare Daten werden                können auf bereits
                                                                                             bestehenden
als Open Data!)%4%$A.+%*E!/%>;++*!$&*!0;&!DO+:NF*%'+%NB80%99!G8+!I$-!
                                                                                 Erkenntnissen/Systeme
/%'+%'&NR%%?!0;&!1+*%'&A.$%09$A.%!F*1:%+!8::%+%'!#;*%+!0%:$+$%'*Z!G8+!%$+%-!                  n aufbauen.

F*%'+!28::%+%!R$4%+43!)$&!41!:O+:!F*%'+%+!28::%+%!R$4%+4?!&*'1>*1'$%'*%&?!
8::%+%&,+$A.*!J'8J'$%*K'%&!D8'-;*?!#;*%+!-$*!"!URIs verlinkt).24

Die Open Data Bewegung (in der Schweiz: https://opendata.ch/) ist der
Ansicht, dass frei zugängliche Daten Effizienz und Innovation fördern und zu
mehr Transparenz (in Forschung und Verwaltung) führen.25

Open Data
Das Portal für offene Daten der Verwaltung der Schweiz, betrieben vom Schweizerischen
Bundesarchiv: <https://opendata.swiss/>, Stand: 23.12.2021.

Linked (Open) Data (LD/LOD)
                                                                                       Linked Open Data
Als Linked Open Data!2RP#3!5%'0%+!O)%'!0;&!=%)!:'%$!G%':O();'%!
                                                                                  erlaubt die Vernetzung
G%'+%*4*%!1+0!&*'1>*1'$%'*%!#;*%+!)%4%$A.+%*?!0$%!O)%'!"!URIs/IRIs               mit bereits bestehenden
                                                                                           und andernorts
identifiziert und dereferenziert (aufgelöst) werden können.26!RP#!5$'0!.%1*%!                 befindlichen
                                                                                  Daten(beständen) und
-%$&*%+&!-$*!"!Semantic WebNI%A.+898($%+!5$%!"!RDF!1-(%&%*4*!21+*%'!              somit die Nutzung von
                                                                                     bereits angehäuftem
@%'5%+01+(!G8+!"!Ontologien?!<):';(%!O)%'!"!SPARQL-Endpunkte).                                    Wissen.


  22
     Nach SAGW, siehe dort auch das Glossar zum Thema:
  <https://www.sagw.ch/sagw/sagw/themen/wissenschaftskulturen/open-science/open-access/open-
  access-strategie-der-sagw>, Stand: 18.03.2022.
  23
     Siehe dazu auch die Berliner Erklärung zum Open Access: Berlin Declaration on Open Access to
  Knowledge in the Sciences and Humanities, 22.10.2003, <https://openaccess.mpg.de/Berliner-
  Erklaerung>, Stand: 19.04.2017.
  24
     Vgl.< http://5stardata.info/de/>, Stand: 23.12.2021.
  25
     Siehe die Website: <https://opendata.ch/>, Stand: 12.5.2017.
  26
     Siehe die Website: <http://linkeddata.org/>, Stand 12.05.2017.


                                                                                                     19
swissTopo stellt geographische Informationen zu einzelnen Gemeinden und anderen
geographischen Merkmalen als Linked Open Data zur Verfügung:
<https://www.geo.admin.ch/en/geo-services/geo-services/linkeddata.html>, Stand: 23.12.2021.

Wikidata
Wikidata ist der Name einer frei bearbeitbaren Datenbank, die unter anderem                  Wikidata stellt Linked
das Ziel hat, Wikipedia zu unterstützen. Das Projekt wurde von Wikimedia                           Open Data zur
                                                                                             Verfügung, die durch
Deutschland gestartet und stellt als gemeinsame Quelle bestimmte Datentypen
                                                                                                   die Wikipedia-
für Wikimedia-Projekte bereit, zum Beispiel Geburtsdaten oder sonstige                        Community gepflegt
allgemeingültige Daten, die in allen Artikeln der Wikimedia-Projekte verwendet                                 wird.
werden können.27

Henker als Familienname oder als Konzept vgl. <https://www.wikidata.org/wiki/Q37547302>,
Stand: 23.12.2021.

Nachhaltige Daten (und Code)
Digitale Daten (und Code) sind oft «nur» Arbeitsmittel oder
Zwischenresultate und haben temporären Charakter. Im Gegensatz zu
Papier lassen sich viele Dateiformate jedoch ohne die Umgebung, in der sie
entstanden sind, weder lesen noch rekonstruieren. Um digitale Daten und
ihre Repräsentationen langfristig nachnutzbar zu machen, müssen sie
deshalb in Formaten mit offenen Spezifikationen gespeichert werden, die
langfristig genutzt werden können.

Prinzipien für langlebige Daten wurden beispielsweise im Rahmen des Endings Project entwickelt.


  27
       o.A.: Wikidata, in: Wikipedia, o.D., <https://de.wikipedia.org/wiki/Wikidata>, Stand: 23.12.2021.


                                                                                                               20
Katalog für Standards mit Bezug zu den
Geschichtswissenschaften
Gedächtnisinstitutionen haben Standards für die Erfassung von (Meta-)Daten definiert, um
den Datenaustausch zu ermöglichen. Kenntnisse der wichtigsten Standards helfen, die
Metadaten der Gedächtnisinstitutionen zu interpretieren, insbesondere wenn die Daten
(automatisiert) nachgenutzt werden.
Es gibt Standards in den Bereichen formale Beschreibung, normierter Sucheinstieg (Autorität,
Normdateien) und Datenformat.


Regeln zur formalen Beschreibung von Dokumenten und
anderen Ressourcen in Gedächtnisinstitutionen


Archive
Der Verein Schweizerischer Archivar:innen (VSA-AAS) hat seit 2005 eine eigene Arbeitsgruppe
«Normen und Standards», die sich intensiv mit dem Themenbereich auseinandersetzt. Ihre
Tätigkeit ist auf der Website der Arbeitsgruppe dokumentiert.
Expertengruppen der internationalen Nichtregierungsorganisation «International Council on
Archives (ICA)» setzen sich für Standards in der archivischen Erschliessung ein.
Trotz dieser Bemühungen existieren in der Schweiz bisher noch keine verbindlichen Standards
zur Erfassung von Archivmaterial, sodass sich die in den Archivinformationssystemen
befindenden Informationen leider nicht einfach vergleichen oder maschinell nachnutzen lassen.


ISAD(G) = International Standard Archival Description (General)

ISAD(G) ist der internationale Anwendungsstandard zur Verzeichnung             Aufgrund individueller
archivischer Unterlagen der ICA mit einheitlichen Pflichtfeldern und einer       Handhabung in den
                                                                                Archiven ist ISAD(G)
mehrstufigen Verzeichnungshierarchie.                                        nur beschränkt hilfreich
=$'0!5$%!;+0%'%!<'A.$G&*;+0;'0&!;>*1%99!G8+!"!H6\!;)(%9C&*E!                  beim Datenaustausch.


ISAAR(CPF) = International Standard Archival Authority Record for
Corporate Bodies, Persons, and Families

ISAAR(CPF) ist der internationale Standard für Normdatensätze von            ISAAR(CPF) ermöglicht
Archivalien von Organisationen/Institutionen, Personen und Familien. Er           den Zugriff auf die
                                                                              gesamte Überlieferung
ermöglicht die standardisierte Erfassung der Urheber von Schriftgut und         eines Aktenbildners.
somit die Beschreibung des Kontexts der Produktion (Herkunft). Seine
Verwendung ist weniger verbreitet als ISAD(G), weil die Erfassung
zeitaufwendig ist.


                                                                                                21
=$'0!5$%!;+0%'%!<'A.$G&*;+0;'0&!;>*1%99!G8+!"!H6\!;)(%9C&*E!


RiC = Records in Context

RiC ist aktuell in Entwicklung. Der Standard versteht sich als neue Norm                    RiC will die
zur umfassenden Beschreibung von Archivalien und ihrer Beziehungen                    Möglichkeiten von
                                                                                     Linked Open Data
untereinander. RiC versucht die archivischen Standards (ISAD[G],                            nutzen und
ISAAR[CPF], ISDF, ISDIAH) mit Hilfe einer Ontologie zu einem Standard                  unterschiedliche
zusammenzufassen.                                                                       Relationen und
                                                                                Verbindungen zwischen
                                                                                 Archivalien aufzeigen.
F$%.%!;1A.!"!RiC-O?!"!EAD.


Bibliotheken
Bibliosuisse (https://bibliosuisse.ch/), vormals Bibliothek Information Schweiz, ist der nationale
Verband der Bibliotheken, Informationszentren und ihrer Mitarbeitenden. Auf internationaler
Ebene vertritt die IFLA (International Federation of Library Associations and Institutions) die
Interessen der Informationseinrichtungen. Die IFLA hat mehrere Standards im Bereich der
Informationswissenschaften herausgegeben.

Die Metadaten der Bibliotheken, insbesondere die bibliografischen Aufnahmen, sind häufig frei
zugänglich und können ohne Einschränkungen genutzt werden. Die bibliografischen
Aufnahmen sind im MARC-Format standardisiert erfasst und enthalten häufig Verweise auf
Normdaten.

Die Metadaten des elektronischen Katalogs der Schweizerischen Nationalbibliothek, des Helveticat und
der Bibliographie der Schweizergeschichte (BSG) sind im Format MARC21 über die Schnittstelle Z39.50
und auf Anfrage über OAI-PMH erhältlich. Eine Auswahl der Daten kann vom Portal opendata.swiss
heruntergeladen werden.


ISBD

                                                                                      Die Interpunktion
Die ISBD (International Standard Bibliographic Description =                               zwischen den
                                                                                         verschiedenen
Internationaler Standard zur Beschreibung bibliographischer Daten) ist                   Elementen wie
ein Standard, der von der IFLA betreut wird. Die ISBD regelt die                Haupttitel und Untertitel
einheitliche Beschreibung von unterschiedlichen bibliothekarischen                          werden beim
Ressourcen und ermöglicht den Datenaustausch.                                   Datenexport mitgeliefert
                                                                                  und müssen daher je
                                                                                    nach Nachnutzung
Die ISBD schreibt vor, welche Elemente für die Beschreibung des                  automatisiert gelöscht
Dokuments herangezogen werden. Sie legt die Reihenfolge der                                     werden.
Elemente in der Beschreibung fest und sie bestimmt die Zeichensetzung
(Deskriptionszeichen). Die ISBD ist in Überarbeitung. Sie soll künftig den
Vorgaben von Linked Data genügen.


                                                                                                    22
Beispiel für die ISBD-Zone Sachtitel und Urheberangabe:
Sachtitel: erster Zusatz: weiterer Zusatz / Verfasserangabe
Zwingli: widerständiger Geist mit politischem Instinkt / Franz Rueb; Bilder: Hans Rueb
Das entsprechende Katalogisat in der BSG ist hier zu finden.


AACR2

Die Anglo-American Cataloguing Rules sind Regeln zur formalen                                            In den
Beschreibung von Werken. Sie stammen aus den 1960er-Jahren und                        Katalogisierungsregeln
                                                                                         ist bestimmt, wie die
wurden mehrmals revidiert. Es war das international am weitesten                     formalen Elemente, wie
verbreitete Regelwerk und wurde von über 30 verschiedenen Ländern                            z.B. der Titel, die
inkl. der Schweiz übernommen.28!<<\H]!$&*!G%';9*%*!1+0!51'0%!01'A.!                          Autoren oder der
                                                                                     Reihentitel eines Werks
"H#<!%'&%*4*E                                                                           beschrieben werden.


Bei Werken mit mehr als drei Autor:innen werden alle ausser der ersten Person weggelassen. Die
Weglassung wird durch den Text «et al.» angezeigt.
Zudem werden mit den AACR2 viele immer wiederkehrende Begriffe abgekürzt, wie z.B. Zusfassung für
Zusammenfassung.


RDA

#;&!H%(%95%'>!H%&81'A%!#%&A'$J*$8+!;+0!<AA%&&!2H#<3!$&*!0%'!
7;A.:89(%'!0%'!<<\H]E!T&!51'0%!]^_^!%$+(%:O.'*E!]^]_!51'0%!%$+%!
'%G$0$%'*%!<1&(;)%!J1)9$4$%'*E!#$%!H#<!);&$%'%+!;1:!0%-!#;*%+-80%99!"!
6DR<!RHB!1+0!0%+!6+*%'+;*$8+;9%+!W;*;98($&$%'1+(&J'$+4$J$%+!26\U3E!
Zunächst für die Anwendung in Bibliotheken entwickelt, ist das
Regelwerk jedoch auch für einen weiteren Anwenderkreis in Bereichen
wie Museen und Archive geeignet. Der Text des Regelwerks wird laufend
aktualisiert und ausschliesslich online im «RDA Toolkit» publiziert. Die
Benutzung des «RDA Toolkit» ist kostenpflichtig.
Im deutschsprachigen Raum wurden die RDA im Jahr 2016 eingeführt.
Die wichtigen Bibliothekskataloge in der Schweiz (SLSP, NB etc.)
erschliessen nach RDA.29


28
   o.A.: Anglo-American Cataloguing Rules, in: Wikipedia, o.D., <https://de.wikipedia.org/wiki/Anglo-
American_Cataloguing_Rules>, Stand: 21.12.2021.
29
   Weiterführende Informationen unter: o.A.: RDA-Info, in: DNB, 06.12.2021,
<https://wiki.dnb.de/display/RDAINFO/RDA-Info>, Stand: 23.12.2021.


                                                                                                           23
Für die Beschreibung des einzelnen Werks ist die Transkription ein wichtiges Merkmal der RDA. Im
Unterschied zu den AACR2 wird mit den RDA die Informationen so übertragen, wie sie in der Vorlage zu
finden sind. Bei den Autorenangaben werden beispielsweise – wenn in der Vorlage vorhanden – die
aufgelisteten Titel und die affiliierten Universitäten und der Wirkungsort angeführt. Beispiel einer
wortwörtlichen Übertragung in Helveticat: Prof. Dr. Andreas Furrer (RA, Universität Luzern), Prof. Dr.
Markus Müller-Chen (RA, Universität St. Gallen).


RSWK

Die Regeln für den Schlagwortkatalog sind in wissenschaftlichen                              Immer mehr
Universalbibliotheken, in öffentlichen Bibliotheken oder in                                  Bibliotheken
                                                                                 erschliessen inzwischen
Spezialbibliotheken Deutschlands, Österreichs und der                             ohne Schlagwortketten
deutschsprachigen Schweiz das Regelwerk für die intellektuelle                            und verwenden
inhaltliche Erschliessung. Sie regeln die Anwendung der verwendeten                 stattdessen die GND-
Schlagworte, die der GND entnommen sind.                                                      Termini als
                                                                                       Einzelschlagworte.
Die RSWK ist eine präkoordinierte Indexiersprache: Reicht ein
Schlagwort zur Beschreibung des Gegenstandes eines Werks nicht aus,
werden die einzelnen Termini zu einer Schlagwortkette
zusammengeführt.
6+!0%'!:';+4C&$&A.&J';A.$(%+!FA.5%$4!5$'0!"!RAMEAU für die
Verschlagwortung in den Bibliothekssystemen verwendet.

Das Werk von Thomas Maissen «Verweigerte Erinnerung. Nachrichtenlose Vermögen und die
Schweizer Weltkriegsdebatte 1989–2004» wurde mit folgender Schlagwortkette versehen:
Schweiz – Neutralität – Weltkrieg (1939–1945) – Vergangenheitsbewältigung – Geschichte 1989–2004.
Die Zeitdimension ist mit der RSKW nicht strukturiert abfragbar (Zeitschlagwort: «Geschichte 1989–
2004»). Ist das Thema eines Werks zeitlich begrenzt, wird das Zeitschlagwort Geschichte mit der
exakten Zeitdauer erfasst.


FRBR/FRBRoo

Die Functional Requirements for Bibliographic Records (FRBR; deutsch                       Während sich
«Funktionale Anforderungen an bibliographische Datensätze») sind ein                       herkömmliche
Datenmodell für bibliografische Metadaten. Sie sind heute die wichtigste           Regelwerke vor allem
theoretische Grundlage zur Erstellung von bibliothekarischen                              auf Details der
                                                                                           Beschreibung
Regelwerken.30 Die FRBR-Ontologie basiert auf dem Entity-Relationship-
                                                                                      konzentrieren und
Modell und definiert eine Reihe von grundlegenden Konzepten für die
                                                                                  wesentliche Konzepte
Katalogisierung.
                                                                                         (bspw. «Werk»,
#$%!H#<!);&$%'%+!;1:!0%-!6DR<!R$)';'Q!H%:%'%+A%!B80%9!26DR<!RHB3E!                           «Ausgabe»,
                                                                                        «Exemplar») als
#;&!B80%99!DH/H!51'0%!01'A.!"!6DR<!RHB!;)(%9C&*E
                                                                                 gegeben vorausgesetzt
                                                                                 werden, versucht FRBR
                                                                                 genau diese Begriffe zu
                                                                                       definieren und in


30
  o.A.: Functional Requirements for Bibliographic Records, in: Wikipedia, o.D.,
<https://de.wikipedia.org/wiki/Functional_Requirements_for_Bibliographic_Records>, Stand:
21.12.2021.


                                                                                                    24
                                                                                    Beziehung zueinander
                                                                                               zu setzen.

Mit FRBR werden beispielsweise verschiedene Ausgaben und Übersetzungen eines Werks
zusammengeführt, was zu einer besseren Übersicht für die Benutzer:innen führt.
Beispiel: Dürrenmatt, Friedrich: Das Versprechen (Übersetzung mit Autoritätseintrag für das Werk).

IFLA LRM


#;&!6DR<!R$)';'Q!H%:%'%+A%!B80%9!26DR<!RHB3!$&*!%$+!>8+4%J*$8+%99%&!B80%99?!0;&!;99%!<&J%>*%!
0%'!)$)9$8(';:$&A.%+!T'&A.9$%&&1+(!;)0%A>*E!`10%-!1+*%'&*O*4*!%&!0$%!T$+)$+01+(!G8+!
)$)9$8(';:$&A.%+!#;*%+!$+!R$+>%0N#;*;N<+5%+01+(%+E!T&!)%'1.*!;1:!0%+!@8'(K+(%'NB80%99%+!
D1+A*$8+;9!H%a1$'%-%+*&!:8'!/$)9$8(';J.$A!H%A8'0&!2"FRBR), Functional Requirements for
Authority Data (FRAD) und Functional Requirements for Subject Authority Data (FRSAD).31


Museen und Sammlungen

Aufgrund der Heterogenität von Sammlungen und Museen ist die
Einigung auf verbindende Standards viel komplexer. Hier genannt sind
aus diesem Grund einige wenige Thesauri, Vokabulare und
Metadatenstandards.

Getty Vokabulare: AAT, TGN, ULAN, CONA, IA

Die Vokabulare von Getty beschreiben unterschiedliche Aspekte von
Objekten, Künstler:innen und Orten, die typischerweise in Museen
gefunden werden. Alle Vokabulare sind strukturiert und nicht
abgeschlossen.

AAT = Arts and Architecture Thesaurus
TGN = Getty Thesaurus of Geographic Names
ULAN = Union List of Artist Names
CONA = Cultural Objects Name Authority
IA = Iconography Authority

LIDO = Lightweight Information Describing Objects

LIDO ist ein Metadatenformat zur Bereitstellung von Museums-
Objektdaten in Internet-Portalen.

CIDOC-CRM (CIDOC Conceptual Reference Model)

CIDOC-CRM ist ein theoretisches und praktisches Werkzeug für die
Informationsintegration im Bereich des kulturellen Erbes.


31
 < https://www.ifla.org/resources/?oPubId=11412>, Stand: 21.03.2022.


                                                                                                     25
Es soll eine gemeinsame Sprache für Fachleute sein, um Anforderungen
an Informationssysteme zu formulieren und als Leitfaden für eine gute
Praxis der konzeptionellen Modellierung dienen. Auf diese Weise kann
es den «semantischen Klebstoff» liefern, der für die Vermittlung zwischen
verschiedenen Quellen von Informationen für kulturelles Erbe benötigt
wird, wie etwa die von Museen, Bibliotheken und Archiven
veröffentlichten Informationen.


Allgemeine Normdateien (Autoritätsfiles, engl. authority files)

Normdaten haben folgende Zielsetzungen:
    ● Eindeutige Identifikation von Entitäten,
    ● Zusammenführen von Synonymen und Schreibvarianten,
    ● Unterscheidung von Homonymen sowie
    ● Einheitlicher Zugang mittels einer Ansetzungsform (Labels/Heading/Deskriptor).
Bei den Normdaten handelt es sich um Verzeichnisse von normierten Begriffen, die für die
formale wie auch für die thematische Erschliessung verwendet werden.

In durch Bibliotheken geschaffenen Normdateien kommen nur diejenigen Begriffe und Namen
vor, die für die Beschreibung von in Bibliotheken und anderen Dokumentationseinrichtungen
vorhandenen Werken nötig sind (sog. «literary warrant»). Normdateien sind dementsprechend
keine Thesauri, die ein ganzes Wissensgebiet abdecken.
Im Folgenden werden in der Schweiz verbreitete und international wichtige bibliothekarische
Normdateien vorgestellt.


GND

Die Gemeinsame Normdatei (GND) ist eine Normdatei für                        Die Mitarbeit in der
Personennamen/Namen von Personen, Körperschaften, Konferenzen,               GND erfolgt entweder
                                                                             über Verbünde, die
Geografika, Sachschlagworte und Werktitel, die vor allem der                 Schweizerische
Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch     Nationalbibliothek oder
von Archiven, Museen, Projekten und in Webanwendungen genutzt                nach direkter
wird.32 Die Lobid GND bietet eine erweiterte Suche. Sie wird von der         Absprache mit der
                                                                             Deutschen
Deutschen Nationalbibliothek, allen deutschsprachigen
                                                                             Nationalbibliothek. Auch
Bibliotheksverbünden mit den angeschlossenen Bibliotheken und                Geschichtsprojekte
zahlreichen weiteren Einrichtungen gemeinschaftlich geführt.                 (z.B. HLS) können –
Die einzelnen Entitäten können mittels des Teilbestandkennzeichens           nach einer
separat abgefragt werden.                                                    entsprechenden
                                                                             Schulung – selbst neue
                                                                             Einträge für Personen in
Die den Normdatensätzen zugrunde liegenden Regelwerke sind zum
                                                                             der GND erstellen.
einen die «Resource Description and Access» 2"RDA) für die Entitäten,


32
 <https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html>, Stand: 18.03.2022.


                                                                                                26
die für die Formal- und Inhaltserschliessung genutzt werden, wie
beispielsweise Personen und Körperschaften. Zum anderen definieren
die «Regeln für den Schlagwortkatalog»!2"!RSWK) die Erstellung der
Normdatensätze für diejenigen Entitäten, die ausschliesslich von der
Inhaltserschliessung genutzt werden, wie beispielsweise Sachbegriffe.

Die GND-Normdaten stehen allen Interessenten in den Formaten MARC
21 Authority, MARCXML und RDFxml über verschiedene Bezugswege
kostenfrei unter CC0 1.0 zur Verfügung.

Für die Erfassung eines neuen Begriffs gibt es Minimalkriterien, damit eine eindeutige Identifizierung
gewährleistet werden kann. Bei Personennamen beispielsweise sind dies die Namensform und entweder
das charakteristische Betätigungsfeld oder die Lebensdaten. Die einzelnen Datensätze können aber
beliebig mit strukturierten und innerhalb der GND verlinkten Informationen ausgebaut werden, vgl. z.B.
Albert Einstein oder Wilhelm Tell.


RAMEAU

RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique
unifié) ist eine Sacherschliessungssprache. Die Dokumentationsform
wird in Frankreich von der Bibliothèque nationale de France, den
Universitätsbibliotheken, zahlreichen öffentlichen Lese- und
Forschungsbibliotheken sowie mehreren privaten Organisationen
verwendet.

Beispiele in RAMEAU: Albert Einstein, Wilhelm Tell.


LCSH

Die Normdatei Library of Congress Subject Headings (LCSH) wird von                    Neueingaben und
der Library of Congress in Washington gepflegt. Sie wird für die                 Änderungen des LCSH
                                                                                   können nur via eines
inhaltliche Erschliessung von Bibliotheksbeständen im                                «proposals» an die
englischsprachigen Raum verwendet.                                                Policy and Standards
                                                                                         Division (PSD)
                                                                                      beantragt werden.

Beispiel in LCSH: Albert Einstein.


MACS

Das Projekt Multilingual Access to Subjects (MACS) hatte die Erstellung                     Es gibt nur
eines multilingualen Recherchevokabulars auf Normdatenebene zum                      Verknüpfungen für
                                                                                      Sachschlagworte.


                                                                                                  27
Ziel.33 Aktuell sind Sachschlagworte der GND, RAMEAU und Library of            Die Mappings sind als
Congress Subject Headings verknüpft und in der GND abfragbar. Zurzeit               Linked Data frei
                                                                                        zugänglich.
werden in der GND keine neuen Links erstellt.
Das Projekt wird nicht mehr weitergeführt.

GND-Mul
Die Deutsche Nationalbibliothek ist die Initiatorin des Projekts «GND
mul». Ziel ist es, die GND sowohl mit anderssprachigen Normdateien als
auch mit Fachthesauri zu verknüpfen.
Das datenstrukturgebende Grundlagenprojekt soll eine Referenz für alle
Arten von Crosskonkordanzen zur GND bieten.


Normdaten für einzelne Entitäten (Autoritätsfiles)


Personen


ULAN

Das Getty Research Institute stellt ihre Datenbank mit Künstler:innen frei
zur Verfügung: Getty Union List of Artist Names (ULAN).


GND

In der GND sind viele Namen von Personen (Autor:innen, historische           Die GND, die bei
Persönlichkeiten) bereits erfasst.                                           Namen von Personen
                                                                             sehr stark ist, hat
Die GND verzeichnet Personen aus der ganzen Welt und aus sämtlichen          gerade bei dieser
Sprachregionen. Sie beschränkt sich nicht auf Personen aus dem               Entität einige Dubletten.
deutschsprachigen Raum.                                                      Je nach Verwendung
                                                                             der Daten lohnt sich die
                                                                             Einschränkung auf die
                                                                             Katalogisierungslevel
                                                                             Tp3 oder Tp1.

ISNI (International Standard Name Identifier)

ISNI ist ein Metastandard. ISNI wird von der ISNI International Agency
Ltd betrieben. INSI alimentiert sich zum einen aus bestehenden
Identifikator-Systemen und andererseits aus den verschiedenen ISNI-
Agenturen. Personennormdaten stammen zurzeit aus 52 Quellen, unter
anderem aus der GND. Die ISNI dient der weltweit eindeutigen
Identifizierung von Urheber:innen und allen Akteur:innen

33
  o.A.: MACS. Multilingual Access to Subjects, in: DNB, 30.07.2020,
<https://www.dnb.de/DE/Professionell/Metadatendienste/Metadaten/Voclink/voclink_node.html#doc582
64bodyText2>, Stand: 21.12.2021.


                                                                                                  28
(Wissenschaftler:innen, Erfinder:innen, Künstler:innen, Grafiker:innen,
Interpret:innen, Produzent:innen, Verleger:innen, Übersetzer:innen etc.),
die an der Veröffentlichung eines Werkes beteiligt sind. Auch
Organisationen, Gruppen und Körperschaften können eine ISNI erhalten.
Namensvarianten werden auch erfasst. Für die Vergabe von ISNI in der
Schweiz ist MVB zuständig (https://german-isbn.de/isni/die-isni).

ORCID (Open Researcher and Contributor ID)

ORCID verknüpft die Identität von Wissenschaftler:innen mit ihren
Werken. Mit ORCID können Dokumente und Datensätze nicht nur mit
Namen, sondern einem Identifikator verbunden werden, der einer Person
zugeschrieben wird.
ORCID eignet sich nicht für die Identifikation von historischen Personen.

data.bnf.fr

Data.bnf.fr!$&*!%$+%!#;*%+);+>?!5%9A.%!0$%!#;*%+!0%'!/$)9$8*.ba1%!
+;*$8+;9%!0%!D';+A%!2/+D3!-$*!X$9:%!G8+!I%A.+898($%+!0%&!F%-;+*$A!=%)!
2"H#D3!:C0%'$%'*?!1-!$.'%!=$%0%'G%'5%+01+(!01'A.!#'$**%!41!%'9%$A.*%'+E!
#;!%&!&$A.!1-!0$%!#;*%+!%$+%'!/$)9$8*.%>!.;+0%9*?!&$+0!0$%!-%$&*%+!
'%($&*'$%'*%+!U%'&8+%+!<1*8'Z$++%+?!:O'!0$%!%$+!)$)9$8(';:$&A.%'!T$+*';(!
G8'.;+0%+!$&*E!R$+>&!41!%M*%'+%+!H%&&81'A%+!25$%!"!VIAF oder wikidata)
werden ebenfalls gemacht.


Vernetzungsdienste für Personen


VIAF

In dem Projekt Virtual International Authority File (VIAF) werden die GND   Um eine VIAF-Nummer
und andere Normdateien mit Personennamen über eine Konkordanz zu              zu erhalten, muss die
                                                                              Entität immer in einer
einer virtuellen internationalen Normdatei verbunden. VIAF selbst ist                 der beteiligten
keine Normdatei, es können keine Autoritätsdatensätze in der VIAF           nationalen Normdateien
erfasst werden.                                                                         erfasst sein.
Die Daten werden online angeboten und stehen für Recherchen, den
Datenaustausch und die gemeinsame Datennutzung zur Verfügung.
Zur Referenzierung erhält ein VIAF-Datensatz eine eigene
Normdatennummer als Identifikator, aus der eine Form als URI für
Linked-Data-Anwendungen hervorgeht.

Beispiel in VIAF: Albert Einstein.


                                                                                                29
Metagrid

Der Webservice Metagrid ermöglicht die Einrichtung, Verwaltung und                Der Webservice leistet
Analyse von Links zwischen identischen Personen verschiedener                    einen wichtigen Beitrag
                                                                                     bei der Suche nach
Websites und Datenbanken.34 Metagrid ist keine Normdatei. Dank der               relevanten historischen
Metagrid-Suche können gespeicherte Konkordanzen zu Personen aus                         Informationen zu
den an Metagrid beteiligten Datenbanken durchsucht werden.                         Personen, die oftmals
Metagrid ist insbesondere von Vorteil, wenn für Personen keine GND                    keine GND haben.
Einträge existieren. Der Austausch erfolgt nicht hierarchisch, sondern
föderal.

Jemand möchte wissen, auf welchen Websites (angeschlossener Institutionen) Informationen zu einer
bestimmten, identifizierten historischen Person zu finden sind.
Beispiel: Friedrich Traugott Wahlen bei Metagrid, damit verknüpft (Auswahl) Diplomatische Dokumente
der Schweiz, Historisches Lexikon der Schweiz, BSG, Archiv für Agrargeschichte.


Körperschaften/Organisation/Institutionen

Bisher existiert unseres Wissens noch keine umfassende
Zusammenstellung von historischen Körperschaften, Organisationen und
Institutionen und deren Funktionen.


GND

In der GND sind verschiedene Namen von Körperschaften erfasst.                     In der GND wird zum
                                                                                     Teil nicht zwischen
                                                                                   Körperschaft und Ort
                                                                                          unterschieden.


Orte


Getty Thesaurus of Geographic Names

Der Thesaurus of Geographic Names (TGN) ist eine Datenbank von                          Der TGN ist eine
                                                                                 ausgesprochen grosse
circa 1’000’000 Bezeichnungen für rund 900’000 Orte. Er wird vom Getty          Sammlung, jedoch nach
Research Institute herausgegeben.                                                      unterschiedlichen
Der Thesaurus deckt die gesamte Welt in aktuellen und historischen,             Bedürfnissen und daher
                                                                                nicht immer konsequent
sowohl in geophysischen als auch geopolitischen Hierarchien ab. Neben                        strukturiert.
den Bezeichnungen werden Koordinaten, Ortstypen, Ortsbeschreibungen
und weitere Informationen gespeichert. Seit 2014 wird der Thesaurus als
Linked Open Data bereitgestellt.


34
     <https://www.metagrid.ch/>, Stand: 23.12.2021.


                                                                                                     30
Geonames

Geonames ist eine Datenbank zur Identifizierung und Referenzierung        Geonames verfügt nur
                                                                               über eine flache
geografischer Entitäten. Unterschiedliche Personen aus verschiedenen             Ortstypologie
Ländern stellen ihr Wissen Geonames zur Verfügung.                         (Buchstabencodes).


GND

In der GND sind Namen von Geografika verfügbar. Die hierarchischen                Die Namen der
Beziehungen für die Geografika sind nicht durchgehend erfasst. Auch        Geografika sind in der
                                                                                   GND mit dem
fehlen bei historischen Orten häufig die Beziehungen zu den vorherigen             Teilbestands-
und nachfolgenden territorialen Entitäten.                                     kennzeichen Tg1
                                                                            gekennzeichnet und
                                                                           können entsprechend
                                                                              extrahiert werden.
                                                                             Teilweise wird nicht
                                                                          zwischen Körperschaft
                                                                          (Bürgergemeinde) und
                                                                              Ort unterschieden,
                                                                            weshalb die GND im
                                                                            Bereich Orte nur mit
                                                                         Vorsicht zu gebrauchen
                                                                                              ist.


Pleiades

Pleiades ist ein gemeinschaftlich erstelltes Verzeichnis und ein Graph
antiker Orte. Es veröffentlicht massgebliche Informationen über antike
Orte und Räume und bietet Dienste zum Auffinden, Anzeigen und
Wiederverwenden dieser Informationen unter einer offenen Lizenz.35


35
     <https://pleiades.stoa.org/>, Stand: 21.03.2022.


                                                                                             31
data.bnf.fr


Unter den von Data.bnf.fr!;+(%)8*%+%+!H%&&81'A%+!2<1*8'Z$++%+?!=%'>%?!
#;*%+?!<1::O.'1+(%+?!U%'$80$>;3!:$+0%+!&$A.!T$+*'K(%!41!P'*%+E!#$%!#;*%+!
&*;--%+!;1&!"!RAMEAU und der Abteilung für Karten und Pläne.
Neben Links zu den übrigen Daten von Data.bnf.fr findet man zusätzliche
Informationen wie geografische Koordinaten.


Ortsnamen.ch

Das Portal der schweizerischen Ortsnamenforschung stellt Resultate der             Mit Ortsnamen.ch
schweizerischen Ortsnamenforschung der Öffentlichkeit zur Verfügung                können Orts- und
                                                                            Flurnamen, die nicht auf
und orientiert über den Stand der Namenforschung in der Schweiz.                    der Landeskarte
In der Onlinedatenbank kann ein Ortsname gesucht und die Treffer auf               verzeichnet sind,
einer Karte angezeigt werden. Zu den einzelnen Treffern finden sich               lokalisiert werden.
weitere Informationen wie Mundart, Phonetik, Beschreibung des Orttyps,
Kanton, Gemeinde, Ort, Teilgebiet, Quellenbelege, Koordinaten, Deutung
etc.


TOPOterm

TOPOterm ist ein Webservice, der die Anreicherung von Suchabfragen             Die Daten stehen als
nach Ortsbezeichnungen durch historische Synonyme ermöglicht. Eine                   Opendata über
                                                                                   Schnittstellen zur
Suchabfrage führt entsprechend zu Treffern mit unterschiedlichen                         Verfügung.
Schreibweisen. Überdies können über eine Suchmaske auch direkte
Abfragen im Browser ausgeführt werden.


SwissNAMES3D/swisstopo

SwissNAMES3D ist eine Namensdatenbank der swisstopo. Sie enthält               Mit SwissNAMES3D
Namen von Ortschaften, Bergen, Flüssen und anderen Lokalitäten, die            können Orte auf der
                                                                             Landeskarte lokalisiert
auf den Schweizerischen Landeskarten im Massstab 1:25'000 (und                             werden.
grösser) vermerkt sind. Daneben sind die Einträge gruppiert in
unterschiedliche Ortstypen wie Berge, Ortschaften etc., so dass auch
dieses Kriterium in der Suche eingeschränkt werden kann.
Insgesamt umfasst die SwissNames-Datenbank georeferenzierte
Einträge von mehr als 190’000 Lokalitäten. Zu jedem Eintrag gehören
auch die genaue Position, Gemeinde, Kanton und – wo sinnvoll – auch
Höhenangaben.
Die Abfrage als Linked Open Data kann über einen SPARQL-Endpoint
erfolgen, bspw. <https://sparql.geo.admin.ch/sparql>, Stand: 2103.2022..


                                                                                                32
Konzepte (Schlagworte und Lemmata)


GND

Die GND beinhaltet zahlreiche Schlagworte/Sachbegriffe, die                        Die Mappings zu den
abweichende Benennungen und Relationen zu quasi Synonymen und                   Schlagworten der LCSH
                                                                                 und RAMEAU sowie zu
verwandten Begriffen enthalten. Zudem gibt es Links zu den                         den DDC-Notationen
äquivalenten Normdatensätzen der "!LCSH und "!RAMEAU wie auch zu                sind als Linked Data frei
                                                                                             zugänglich.
den "DDC-Notationen. Eine eigene Systematik erlaubt einen
systematischen Zugang auf die GND. Diese wird nach Bedarf erweitert
bzw. erstellt, d.h. sie ist nicht allumfassend.

Der Beruf Henker oder Nachrichter ist in der GND ein Synonym des Sachbegriffs Scharfrichter. In der
Systematik gehört der Begriff zu 7.7b «Strafvollzug» und 9.4ab «Einzelne Berufe, Tätigkeiten,
Funktionen; Religionszugehörigkeit, Weltanschauung». Ein thematischer Bezug wird mit dem Link zum
Begriff «Hinrichtung» gegeben. Es wird zudem auf "!RAMEAU «Exécutions capitales et exécuteurs»
verwiesen etc.


                                                                                                    33
Klassifikationen
Bibliotheken verwenden nebst der verbalen Sacherschliessung Klassifikationen, um einen
thematischen Zugang zu den Beständen zu ermöglichen. Die Klassifikationen sind meist
hierarchisch strukturiert, wobei die Relationen ausgewiesen werden.
                                                                           Die Mappings zwischen
                                                                            den DDC-Notation und
DDC
                                                                                        den GND-
Die Dewey-Dezimalklassifikation (DDC) ist die international am weitesten     Schlagworten sind als
verbreitete Klassifikation für die inhaltliche Erschliessung von                  Linked Data frei
Bibliotheksbeständen. Sie ist nicht frei zugänglich, sondern                          zugänglich.
lizenzpflichtig.
In der "GND gibt es Verlinkungen zwischen den Schlagworten und der
entsprechenden DDC-Notation.


UDK
                                                                               Die UDK wird bspw.
Die Universal-Dezimalklassifikation beruht auf der "DDC. Sie wurde                   durch die ETH-
                                                                              Bibliothek verwendet.
Ende des 19. Jahrhunderts in Belgien als Alternative zur amerikanisch-
lastigen DDC entwickelt. Sie wird hauptsächlich in Bibliotheken
ausserhalb des englischsprachigen Raums verwendet.
                                                                           Im universitären Bereich
Regensburger Verbundklassifikation (RVK)                                   in der Schweiz spielt die
                                                                           RVK keine wichtige
Die Regensburger Verbundklassifikation (RVK) ist eine weitverbreitete      Rolle.
Klassifikation mit Anwendern in Deutschland, Österreich, Italien und der
Schweiz. Sie ist ursprünglich als Aufstellungssystematik entwickelt
worden, sie dient aber auch als Sacherschliessungsinstrument.


Nachschlagewerke, Vokabulare, linguistische Standards
und Wörterbücher


Rechtshistorisches Vokabular


Ausgehend von den Schlagworten der deutschsprachigen «Materien der
Policeyordnungen»!%+*&*%.*!41'!`%$*!%$+!-%.'&J';A.$(%&?!-$*!"!SKOS
erstelltes rechtshistorisches Vokabular.


                                                                                               34
CoNLL (Organisation linguistischer Daten)


CoNLL ist eine jährliche Konferenz, die Shared Tasks (gemeinsame
Probleme) bearbeitet. Die Form der Daten, die für diese Aufgaben
vorgeschlagen werden, hat sich als Standard in der maschinellen
Sprachverarbeitung (NLP) durchgesetzt. Jede Zeile steht für ein Token,
dessen verschiedene linguistische Annotationen streng geordnet und
durch Tabulatoren getrennt sind, die ebenso viele Spalten bilden: ID für
die Position im Satz, FORM für das Token, LEMMA für das Lemma, POS
für den Satzteil, FEAT für die Morphologie, HEAD für den syntaktischen
Elternteil etc. Nullwerte werden durch einen Unterstrich (_)
gekennzeichnet. Es gibt Empfehlungen für den Wert von Annotationen:
Es gibt Standard-Etikettierungssätze und -Referenzsysteme, die jedoch
von der annotierten Sprache abhängen können.


Nationale Wörterbücher der Schweiz


In der Schweiz werden folgende Wörterbücher im Auftrag der SAGW
bearbeitet und online mit unterschiedlichen Suchfunktionen zur
Verfügung gestellt:

Deutsch: Schweizerdeutsches Wörterbuch oder Schweizerisches
Idiotikon. Für Recherchen zur deutschen Sprache vgl. auch das
Wörterbuchnetz.

Französisch: Das Glossaire des patois de la Suisse romande (GPSR)
lässt sich online durchsuchen. Für Recherchen zur französischen
Sprache vgl. auch ATLIF und Lexilogos.

Italienisch: Das Vocabolario dei dialetti della Svizzera italiana (VSI) wird
seine Online-Version per Ende 2022-Anfang 2023 aufschalten.

Romanisch: Das Dicziunari Rumantsch Grischun (DRG) dokumentiert die
bündnerromanischen Sprachen seit dem 16. Jahrhundert und ist mit
DRG-online durchsuchbar.

Weitere Nachschlagewerke, aufgenommen durch die DNB: Liste der
Nachschlagewerke der DNB


                                                                               35
Datenformate


METS/MODS (Metadata Encoding and Transmission
Standard, Metadata Object Description)

Der Metadata Encoding & Transmission Standard (METS) ist ein mit
XML Schema definiertes XML-Format!41'!/%&A.'%$)1+(!G8+!0$($*;9%+!
F;--91+(%+!G8+!P)V%>*%+!-$*!"!Metadaten.

METS wird häufig in Kombination mit MODS (Metadata Object
Description) verwendet, das ebenfalls von der Library of Congress als
XML-Spezifikation verantwortet wird. Während in METS die technischen
Metadaten und Pfade zu den Daten hinterlegt wird. Nutzt man MODS,
um inhaltlicher/objektbezogene Metadaten zu kodieren.


MARC21

Die MARC-Formate sind Standards für die Repräsentation und den             Während der MARC-
Tausch von Daten in maschinenlesbarer Form. Verantwortlich für die            Standard definiert,
                                                                           welche Information in
Pflege und Entwicklung von MARC 21 ist das Network Development and       welchem Feld vermerkt
MARC Standards Office (NDMSO), das vom MARC Advisory Committee                wird, schreiben die
unterstützt wird. Es steht auch eine XML-Variante des Formats zur        Formalerschliessungsre
Verfügung. In der Schweiz wird MARC21 von allen grossen Bibliotheken         geln die Art, wie die
                                                                            Informationen in den
verwendet.
                                                                         Feldern wiedergegeben
Die Anwendung und die Definition der einzelnen Felder ist zu finden                  werden, vor.
unter: http://www.loc.gov/marc/bibliographic/
Nachfolger von MARC21 ist BIBFRAME, dieses Format ist aber noch
nicht eingeführt.36!T$+%!<9*%'+;*$G%!41!B<H\!$&*!0;&!(98);9%'!

G%'5%+0);'%!"!MODS.


DC

Dublin Core (DC) ist eine Sammlung von einfachen und standardisierten Nach DC strukturierte
Konventionen zur Beschreibung von Dokumenten und anderen Objekten. Daten in Headern von
                                                                         HTML-Seiten helfen
                                                                         Suchmaschinen,
Innerhalb von Dublin Core wird zwischen dem                              Webseiten zu
Dublin Core Metadata Element Set und den                                 indexieren, zu


36
     Siehe <https://www.loc.gov/bibframe/>, Stand: 22.12.2021.


                                                                                              36
DCMI Metadata Terms unterschieden. Das Erstere bezeichnet fünfzehn                  hierarchisieren und
terms zur Beschreibung von Metadaten. Das Zweitere zielt darüber                    auffindbar zu machen.

hinaus auf die Verknüpfung der terms mit Klassen und properties,
Datentypen und Vokabularen.


                                                                                        Die semantischen
XML-Auszeichnungssprachen                                                             Auszeichnungen der
                                                                                                Texte sind
                                                                                      maschinenlesbar und
                                                                                            interoperabel.


ALTO XML


ALTO XML (Analyzed Layout and Text Object) ist ein Standard zur
Beschreibung von automatisch erkannten Textdaten, der häufig im
Kontext von Optical Character Recognition genutzt wird.37


PageXML


Page XML ist ein Standard zur Beschreibung von automatisch erkannten
Textdaten, der häufig im Kontext von Optical Character Recognition
genutzt wird. Page XML wird häufig zur Erstellung von Ground Truth
(Trainingsmaterial für Texterkennsysteme) genutzt.38!6-!c%(%+&;*4!41!
"ALTO XML erlaubt PageXML semantische Information stand-off zu
annotieren.39


HTML

HTML (Hypertext Markup Language) ist ein Markup
(Auszeichnungssprache) für Webseiten, um deren Struktur zu definieren
(z.B. Abschnitte, Titel etc.). HTML wird durch den Webbrowser
dargestellt. HTML5 ist die neueste Version von HTML und bietet viele
vordefinierte interaktive Elemente an. Das XHTML-Format (Extensible
HyperText Markup Language) stellt eine HTML 4.01-kompatible XML-


37
     <https://github.com/altoxml/documentation/wiki/Versions>, Stand: 21.03.2022.
38
     <https://ocr-d.de/de/gt-guidelines/trans/trPages>, Stand: 21.03.2022.
39
     <https://github.com/PRImA-Research-Lab/PAGE-XMLs>, Stand: 21.03.2022.


                                                                                                      37
Variante von Hypertext dar, die inzwischen angesichts von HTML5 an
Bedeutung verloren hat.


SIARD

SIARD (Software Independent Archival of Relational Databases) ist ein
Format zur Archivierung relationaler Datenbanken unabhängig von ihrem
Management-System. SIARD kann Schemata, Relationen, Metadaten
und den Inhalt von Datenbanken in XML abbilden. Da SIARD mit dem
Standard SQL:2008 konform ist, kann es die meisten neueren
Datenbanksysteme archivieren. Die Konformität mit XML und SQL:2008
Standards verspricht eine nachhaltige und interoperable
Langzeitspeicherung von Datenbanken sowie optional einer breiten
Palette zusätzlicher Informationen zu ihrem Nutzungskontext. Durch die
kostenlose Software SIARD Suite ist sowohl das Archivieren von
Datenbanken als auch das Überführen bereits archivierter Datensätze in
neue Datenbankanwendungen einfach und userfreundlich möglich.


TEI

TEI (Text Encoding Initiative) ist ein Konsortium, das einen Standard zur
elektronischen Codierung von Texten entwickelt hat. TEI bezeichnet
auch eine Markup-Sprache bzw. eine Menge von Grammatiken (XML-
Schemata), die kombiniert werden können, um eine solche zu definieren
(hier als TEI/XML bezeichnet).
Digitale Editionen, die mit TEI arbeiten, verwenden in der Regel ein TEI-
Schema zur strukturierten Erfassung der archivischen Metadaten der
Quellen sowie zur textkritischen und semantischen Auszeichnung der
Primärdaten. Die Editions- und Transkriptionsrichtlinien müssen
ausführlich dokumentiert werden.

Im Umfeld der Text Encoding Initiative entwickeln sich eine Vielzahl von
(Sub-)Initiativen, die sich am Standard orientieren oder diesen erweitern.
Darunter fällt insbesondere correspsearch
(<https://correspsearch.net/de/start.html>, Stand: 21.03.2022), EpiDoc für
Epigraphika (<https://epidoc.stoa.org/gl/latest/intro-intro-fr.html>, Stand:
21.03.2022), TEI Lex-0 für Wörterbücher (<https://dariah-
eric.github.io/lexicalresources/pages/TEILex0/TEILex0.html>, Stand:
21.03.2022), Vanilla TEI.40

CEI (Charters Encoding Initiative), die sich an die TEI anlehnt bzw. diese
erweitert mit Auszeichnungen von Urkunden nach Vorgaben der
Diplomatik (bspw. Auszeichnung von Arenga, Eschatokoll etc.).


40
  TEI XML Vanilla ist ein neues «minimal Format», getragen durch den Verein e-editiones und auch in den TEI-
Publisher integriert, siehe <https://e-editiones.org/news/tei-vanilla-a-scoop-of-tei-for-everyone/>, Stand
21.03.2022.


                                                                                                               38
MEI (Music Encoding Initiative) lehnt sich an den Vorgaben und der Logik
von TEI an, ist aber eine speziell auf die Auszeichnung von Musik
zugeschnittene XML-Auszeichnungssprache.

Der TEI-Publisher ist auf die Publikation von TEI XML kodierten
Dokumenten und die Indexierung in einer existDB ausgelegt. Der
Publisher folgt dem Single-Source Publishing Ansatz, der aus einem
Dokument unterschiedliche Ausprägungen herstellen kann.

Eine Streichung in einem gedruckten oder handschriftlichen Text wird mit dem Tag <del> ausgezeichnet.
Für eine Maschine und einen Menschen wird somit klar, dass die von den Tags <del> umfassten
Zeichen gestrichen sind.


EAD

EAD (Encoded Archival Description) ist ein dokumentarischer XML-
Standard zur Beschreibung von Archivalien und Findhilfen in Archiven,
Museen und Bibliotheken, der von der Library of Congress
herausgegeben wird.41


Ontologien


OWL

OWL (Web Ontology Language) ist eine Erweiterung von RDF zur
Bildung komplexer Vokabulare und Ontologien (schliesst "RDFS ein).
Die Notation basiert auf RDF. Durch Ontologien lässt sich eine Domäne
(ihre Gegenstände und deren Beziehungen zueinander) formalisiert
beschreiben. Bestehende Ontologien können wiederverwendet werden.


SKOS

SKOS (Simple Knowledge Organization Systems) ist eine standardisierte
formale Sprache zur Ordnung von Wissen, beispielsweise in Form von
Thesauri.


41
     Einführung auf französisch: https://www.ead-bibliotheque.fr/


                                                                                                 39
CIDOC-CRM

CIDOC-CRM (Conceptual Reference Model von CIDOC) ist eine
Ontologie, die implizite und explizite Konzepte und Beziehungen von
Institutionen modelliert, die das Kulturerbe bewahren und dokumentieren
(z. B. Museen). Das Comité International pour la Documentation
(CIDOC) ist ein internationales Komitee für Museumsdokumentation.
Einzelne Fachgruppen erweitern CIDOC-CRM fachspezifisch, z.B.
FRBR. Im Rahmen des Data for History Konsortium
(http://dataforhistory.org/) werden auf die Bedürfnisse der
Historiker:innen angepasste Version von CIDOC-CRM erarbeitet.


DOLCE

DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering)
ist eine Ontologie, die den menschlichen Diskurs modelliert.

Ric-O

RiC-O!2H%A8'0&!$+!\8+*%M*&NP+*898(Q3!$&*!%$+%!"!OWL-Ontologie zur
Beschreibung von Archivbeständen und damit zusammenhängende
Einheiten.


Schema.org

Initiative zur einheitlichen Strukturierung von Daten auf Webseiten nach
einer von schema.org entwickelten Ontologie.

Eine Ontologie, die auf Schema.org gehostet wird, ist friend-of-a-friend,
um Beziehungen zwischen Personen auszudrücken.

3#/(-45"'6789:;<=>;</,?&?@#"/0'1'Dublin Core'()*'+",-.-,"/'?."*'1'Friend-of-a-friend für Personen

7?A-#/;</,?&?@#"/0'1'FRBR oder SPAR-Serie (FRBR wiederverwendet)
Anwendung für diese Ontologien: DBPedia, eine RDFisierte Version der Wikipedia oder Europeana, mit
entsprechenden Abfragesystemen.


                                                                                               40
Austauschformate/Austauschprotokolle

Web ARChive (WARC)

Mit dem WARC Archivformat lassen sich digitale Ressourcen in einer
aggregierten Archivdatei mit zugehörigen Metadaten speichern. Es stellt
eine Weiterentwicklung des ARC-Dateiformats des Internet Archive dar
und gilt als das am meisten verwendete und unterstützte Format.
Es gibt ein grosses Ökosystem von Analysewerkzeugen etc. unter
<https://github.com/iipc/awesome-web-archiving>, Stand: 21.03.2022.


IIIF

Das Image Interoperability Format (IIIF) wird gesteuert durch ein
Konsortium und legt einen Standard zur Übernahme von Bilddaten,
inklusive Metadaten fest.42 Pfad und Angaben zu Metadaten werden in
sogenannten Manifesten bereitgestellt.
Ziel von IIIF ist, dass Bilder, Bildteile, Audio, Video und Metadaten auf
Seiten von Dritten eingebunden und weiterverwendet werden können,
ohne dass eine Duplizierung der Bilddateien notwendig ist.


42
  Siehe die Website: o.A.: International Image Interoperability Framework, o.D., <https://iiif.io/>, Stand:
23.12.2021.


                                                                                                         41
e-codices präsentiert mittelalterliche und frühneuzeitliche Handschriften über einen eigenen IIIF-fähigen
Viewer und publiziert alle Inhalte mit IIIF-Manifesten (Metadaten und Bilddateien).


Distributed Text Services (DTS)


DTS!$&*!%$+!&$A.!$+!T+*5$A>91+(!)%:$+0%+0%'!F*;+0;'0?!0%'!%$+%!FA.+$**&*%99%,"<U6!0%:$+$%'*?!1-!
I%M*%!1+0!I%M**%$9%!;)41'1:%+E!6+!<+;98($%!41!"!IIIF soll DTS Texte schematisch adressiert
bereitstellen. Mehrere Endpoints erlauben das Ansprechen von Sammlungen (Collections), der
Navigation und Dokumente.


Canonical Text Services (CTS)


Die Spezifikation für kanonische Textdienste definiert einen Netzdienst zur Identifizierung von
Texten und zum Abrufen von Textfragmenten unter Verwendung von Begriffen wie «Werk» und
«Zitat», die in den Antikenwissenschaften und anderen Disziplinen üblich sind.

Die CTS-Hauptseite (http://cite-architecture.org/cts/) ist aktuell nicht erreichbar. Die
Sourceforge-Seite wurde 2015 letztmals aktualisiert: http://cts3.sourceforge.net/.


Die Perseus Digital Library nutzt die CTS Architektur. Die Perseus CTS API/End-point ist
verfügbar unter: http://cts.perseids.org/api/cts/. Ein browser-kompatibles Interface kann hier
aufgerufen werden http://cts.perseids.org/).


IPIF/ProsopogrAPhI International Prosopographical
Interchange Framework)

Mit IPIF/ProsopogrAPhI schlägt die Österreichische Akademie der
Wissenschaften einen Standard zum Austausch prosopographischer
Daten vor.


                                                                                                      42
Datenablage


Git

Das aus der Softwareentwicklung bekannte System zur Versionskontrolle
Git bietet Sicherheit und Flexibilität bei der Archivierung von Quellcode
und Daten.
GitLab ist eine Open Source git-Plattform, die von SWITCH und vielen
Universitäten (bspw. Genf und Bern) in der Schweiz betrieben wird.
GitHub ist ein häufig genutzter privatwirtschaftlicher Webservice.

Bei der Entwicklung von Git stand die Integrität des verwalteten
Quellcodes an erster Stelle. Der Inhalt der Dateien sowie die
tatsächlichen Beziehungen zwischen Dateien und Verzeichnissen,
Versionen, Tags und Commits – all diese Objekte im Git-Repository sind
mit einem kryptografisch sicheren Hash-Algorithmus (SHA1) gesichert.
Dies schützt den Code und den Änderungsverlauf sowohl vor
versehentlichen als auch vor böswilligen Änderungen und stellt sicher,
dass der Verlauf vollständig nachvollziehbar ist.

Eines der wichtigsten Ziele bei der Entwicklung von Git ist die Flexibilität.
Git ist in mehrfacher Hinsicht flexibel: in der Unterstützung verschiedener
Arten von nicht linearen Entwicklungsabläufen, in seiner Effizienz bei
kleinen und grossen Projekten und in seiner Kompatibilität mit vielen
bestehenden Systemen und Protokollen.


DLCM/OLOS

Das Data Life Cycle Management (DLCM) in Genf hat die Entwicklung
von OLOS im Auftrag der Schweizerischen Hochschulkonferenz
vorangetrieben. Mit OLOS steht auf nationaler Ebene eine Lösung für
das Datenmanagement von Forschungsdaten (im weitesten Sinn) über
den gesamten Lebenszyklus hinweg zur Verfügung.


DaSCH

Das Swiss National Data & Service Center for the Humanities (DaSCH)
ist eine nationale Forschungsinfrastruktur, welche den langfristigen
Zugang zu komplexen Forschungsdaten aus dem Bereich der
Geisteswissenschaften sicherstellt und auch als Projektarbeitsumgebung
dienen kann. Sie fördert die Vernetzung der Daten mit anderen
Datenbeständen (Linked Open Data) und schafft einen Mehrwert für die


                                                                                43
Forschung und die interessierte Öffentlichkeit. Die bereits bestehende
DaSCH Service Platform (DSP) dient für die Speicherung, den
Austausch und die Arbeit mit geisteswissenschaftlichen Primärquellen
und Daten. Über generische Webapplikationen sind die Daten suchbar
und auch aktualisierbar. Jedes Objekt in DSP besitzt einen eigenen
permanenten Identifikator (ARK), der es erlaubt, gezielt einzelne
Dateneinträge zu referenzieren. Die Plattform wird in den kommenden
Jahren sukzessive ausgebaut und um Funktionalitäten erweitert.


ZENODO

Zenodo ist ein Repository des CERN, das durch die Europäische Union
mitfinanziert wird und für die Ablage wissenschaftlicher Daten, aber auch
für Publikationen und Präsentationen geeignet ist.
Auf GitHub gehostete Projekte können via ZENODO als Abzug langfristig
gespeichert werden.
Aktuell besteht eine Einschränkung, da ein ZENODO-Datenset immer
nur von einem GitHub-Konto gefüttert werden kann, was aus
Nachhaltigkeitsperspektive nicht ideal ist. Eine Verbindung nach Zenodo
wurde auch für Gitlab schon vor längerer Zeit angeregt, aber es tat sich
bisher nicht viel (immerhin gibt es zweckdienliche Skripte im frühen Beta-
Stadium).


                                                                             44