Datenstandards für die historische Forschung Ein White-Paper der SGG Stand: 10.11.2023, Version 1.0 Standards pour les données numériques de la recherche historique. Livre blanc de la SSH Dieses Dokument basiert auf einer Vorlage, welche durch die Arbeitsgruppe «Nachhaltige Datennutzung» der Abteilung Grundlagenerschliessung der Schweizerischen Gesellschaft für Geschichte (SGG) erarbeitet wurde. Dazu gehörten (teilweise zu unterschiedlichen Zeitpunkten) Simon Gabay, Tobias Hodel, Moritz Mähr, Stefan Nellen, Barbara Roth-Lochner, Pascale Sutter, Andrea Voellmin und Karin von Wartburg. Das Papier wurde in Workshops und durch Freiwillige in einem open peer review erweitert und kritisch diskutiert. Wir danken allen Beteiligten für das grosse Engagement und die konstruktiven Diskussionen. Das vorliegende Dokument wurde am 27.2022 von der Abteilung «Grundlagenerschliessung der SGG» verabschiedet und am 22.11.2022 vom Vorstand der SGG genehmigt. Grundsätzliches Das Dokument ist interaktiv und verweist mit Links auf die Überschriften, welche verwandte Themen abhandeln. Zielgruppe Die Zielgruppe dieses Papiers sind Historiker:innen, die mit Daten(-beständen) arbeiten und forschen, Dokumente erschliessen und online publizieren wollen sowie Informatiker:innen, die in geschichtswissenschaftlichen Projekten (mit-)arbeiten. 1 Ziel Das Papier stellt ein Glossar und einen Katalog zur Verfügung mit den wichtigsten Standards zur Erzeugung von Interoperabilität, sodass digitale Geschichtsprojekte möglichst einfach von Dritten nachgenutzt und verlinkt werden können. Das Papier fokussiert auf technische Standards. Interoperabilität bezeichnet die Anschlussfähigkeit und Austauschbarkeit von Daten und Informationen über unterschiedliche Systeme und Anbieter:innen hinweg. Dank der Ausrichtung an Standards und der Weitergabe eigener Daten(-stämme) wird eine Nachnutzung aktiv gefördert. Die Orientierung an Standards erlaubt den Anschluss an inter- und transnationale Forschungsarbeiten, indem Forschungsdaten und -resultate weiterverwendet werden können. Gleichzeitig vereinfacht die Verwendung von Standards die Archivierung der Datenstämme.1 Das Dokument hat zum Ziel, die Standards aus geschichtswissenschaftlicher Perspektive (in Anschluss an geisteswissenschaftlichen Perspektiven) widerzuspiegeln, ohne dass Wertungen bezüglich der verwendeten Technologien abgegeben werden. Das Dokument besteht aus einer Einleitung, welche die grundlegenden Begriffe einführt, einem Glossar, das die geläufigsten Begriffe bestimmt, und einem Katalog, der die heute gebräuchlichen Standards beschreibt. Aufgrund des technischen Wandels ist weder das Glossar noch der Katalog vollständig oder langfristig gültig. Die datierte und publizierte Version ist ein Produkt ihrer Zeit. Überarbeitungen werden mit Anpassungen von Formaten und Technologien notwendig werden. Die Unabgeschlossenheit des Dokuments soll gleichzeitig aufzeigen, dass nur der gelebte Umgang mit digitalen Methoden und Daten produktive Diskussionen und Weiterentwicklungen 1 Wir verwenden den Begriff «Standard» in Abgrenzung zu «Norm». Unter Norm verstehen wir eine vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte (oder zumindest angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich gegenüber anderen Arten und Weisen durchgesetzt hat. Eine Norm ist definiert als eine weithin faktisch (manchmal auch rechtlich) anerkannte und durch ein Normungsverfahren beschlossene, allgemeingültige sowie veröffentlichte Regel zur Regelung eines Sachverhaltes. Eine Norm wird beschlossen und veröffentlicht, nachdem sie alle Instanzen eines Normungsverfahrens durchlaufen hat. Eine solche Norm ist nach EN 45020 ein «Dokument, das mit Konsens erstellt und von einer anerkannten Institution angenommen wurde und das für die allgemeine und wiederkehrende Anwendung Regeln, Leitlinien oder Merkmale für Tätigkeiten oder deren Ergebnisse festlegt, wobei ein optimaler Ordnungsgrad in einem gegebenen Zusammenhang angestrebt wird» (, Stand: 23.12.2021). Mit der Normung sind oftmals weitere Ziele verbunden wie Rationalisierung, Verminderung der Vielfalt, Kompatibilität, Gebrauchstauglichkeit und Sicherheit (o.A.: Normung, in: Wikipedia. Online: , Stand: 23.12.2021). Ein Standard kann in einem formalisierten oder nicht formalisierten Regelwerk (in einer oder mehreren Regeln oder einer Norm) beschrieben sein oder sich ungeplant ergeben. In dieser Bedeutung ist der Begriff Standard insbesondere in den Bereichen Technik und Methodik üblich (, Stand 21.03.2022). Im deutschen Sprachgebrauch ist in den letzten Jahren eine Begriffsverwirrung eingetreten, indem «Standard» analog zum englischen Begriff standard auch für Normen verwendet wird. Aus dem englischen Sprachgebrauch kommt der Begriff de-jure-Standard, der sich mit dem deutschen Begriff Norm deckt. Von De- facto- oder Quasi-Standards spricht man, wenn sich Methoden oder Regeln in der Praxis durchsetzen und nicht infolge von Vereinbarungen, Gesetzen, Verordnungen oder Ähnlichem gesetzt sind (, Stand 21.03.2022). 2 von Theorie und Praxis ermöglichen. Entsprechend befürworten wir eine offensive, offene und häufige Publikation (selbst) von («dirty») Daten und einen kritischen Umgang mit Daten. Einleitung Die folgenden Seiten sollen als Wegweiser für geschichtswissenschaftliche Projekte mit digitalen Ansätzen dienen, die sich an forschungsfragen-geleiteten Workflows orientieren. In zwei Teilen wird eine Handreichung für technische Standards und aktuelle Herangehensweisen an Datenaufbereitung, -management und -auswertung gegeben. Damit möchten wir den Dialog zwischen Historiker:innen sowie Computerwissenschaftler:innen und Informationswissenschaftler:innen erleichtern. Der erste Teil erklärt in Form von Definitionen zentrale Technologien und Ansätzen, die in den digitalen Geisteswissenschaften Verwendung finden. Im zweiten Teil werden in einem Katalog technische Standards beschrieben, an denen sich Projekte orientieren können. Das vorliegende Papier beschäftigt sich mit technischen Datenstandards im Zusammenhang geschichtswissenschaftlicher Projekte. «Standard» bezeichnet hier eine vergleichsweise einheitliche oder vereinheitlichte, weithin anerkannte und meist angewandte (oder zumindest angestrebte) Art und Weise, etwas herzustellen oder durchzuführen, die sich gegenüber anderen Arten und Weisen durchgesetzt hat. Dabei spielt es keine Rolle, ob diese Standards de jure oder de facto zustande gekommen sind. Daten Der Plural Daten leitet sich aus dem lateinischen datum ab, was sich mit «Gegebenes» übersetzen lässt. Der Begriff Daten bezeichnet streng reglementierte, in Zeichen(-ketten) der sogenannten Syntax kodierte digitale Repräsentationen. Da der Begriff in unterschiedlichen Formen und Kontexten Verwendung findet, einige Bemerkungen dazu. Durch semantische Anreicherung werden aus Daten Informationen. Die Vernetzung von Informationen führt zu (historisierbarem) Wissen. Daten werden hergestellt und aufbereitet. Die Herstellung und Aufbereitung von Daten ist folglich ein eigener, subjektiver Prozess. Daten sind so gesehen vielmehr capta (Erwischtes) oder gar facta (Gemachtes) als data (Gegebenes).2 Der Prozess der Anreicherung lässt sich als Wissenspyramide beschreiben: ● Zeichen werden mittels Syntax zu einer Aussage!"!#$%&!%'($)*!%$+!Datum ● Daten werden über Semantik(en)!%$+%,-%.'%'%!/%0%1*1+(2%+3!41(%5$%&%+!"!#$%&! %'($)*!Informationen ● Informationen werden verknüpft und gewertet!"!#$%&!%'($)*!Wissen Eine besondere Form von Daten sind Forschungsdaten. Darunter verstehen wir sämtliche Daten, die in einem Forschungsprozess hergestellt werden, z.B. durch Digitalisierung, Quellenforschungen, Experimente, Messungen, Erhebungen oder Befragungen. Die 2 Drucker, Johanna: Humanities Approaches to Graphical Display, in: Digital Humanities Quarterly 5 (1), 2011. Online: , Stand: 11.03.2016. 3 Verfügbarkeit und Nachnutzung digitaler Informationen schliesst den möglichst kostenfreien und barrierearmen Zugang zu Forschungsdaten ein. Entsprechend gehören sowohl Primär- als auch Metadaten in diese Kategorie. Der Begriff Primärdaten ist in der Geschichtswissenschaft nicht gebräuchlich, vielmehr wird von Quellen gesprochen, unabhängig davon, ob diese digital oder analog vorliegen. Aus Gründen der Konsequenz wird der Begriff Primär- bzw. Urdaten auf den Seiten dieses Dokuments mit dem Begriff «Quellen» gleichgesetzt. Folglich kann darunter ein Bild, eine Karte, ein Gegenstand oder ein Text verstanden werden. Grundsätzlich gibt es keine materielle Form, die nicht als Quelle und entsprechend als Primärdatum verstanden werden kann. Wichtig ist die Unterscheidung zwischen analogen und digitalen Quellen. Digital-born Daten sind historische Quellenstücke, die für ein geschichtswissenschaftliches Forschungsthema ausgewertet werden sollen und bereits in digitaler Form hergestellt wurden.3 Im Gegensatz dazu stehen analoge (= physisch, nicht binär abgespeicherte Daten), die erst durch Digitalisierung (Scanning, Texterkennung, Bildverarbeitung etc.) elektronisch verfügbar gemacht werden. Das Gegenstück zu den Primärdaten bilden Metadaten, worunter wir mehr verstehen als technische Metadaten, die sich auf digitale Dokumente beziehen. Metadaten sind für uns Beschreibungen von Daten, die sich auch auf analoge Dokumente beziehen.4 Insbesondere für Metadaten ist die Nutzung von Standards zentral, da dadurch ein reibungsloser Austausch über Plattformen und Institutionen hinweg gewährleistet werden kann. Metadatenstandards sind Spezifikationen, die Metadatenterme detailliert beschreiben. Sie dienen der Festlegung von Elementen und von deren Struktur und Bedeutung und ermöglichen die semantische Interoperabilität zwischen Anwendungen, die diesen Standard verwenden. Ziel von Metadatenstandards sind die einheitlichen, maschinenverarbeitbaren Beschreibungen von Ressourcen und der plattform- und institutionsübergreifende Austausch dieser Beschreibungen.5 Zur Vernetzung von Daten und Wissensbeständen werden im Bibliotheks-, Informations- und Dokumentationswesen Normdaten angelegt und verwendet (als Deskriptor in der Dokumentation). Eine Normdatei ist damit eine Form eines kontrollierten Vokabulars, in dem festgelegt wird, welche Ansetzung bei der Erschliessung zu verwenden ist. Im Englischen werden Normdateien als «authority files» bezeichnet. Normdaten dienen zur Identifikation einer Entität (Person, Ort etc.). Daten können aufbereitet, verarbeitet, angereichert oder strukturiert bzw. modelliert werden. Unter Datenaufbereitung versteht man die Beschreibung, Transkription oder andere Formen der Zuschreibung von Bedeutung. Dazu zählen wir auch die Datenanreicherung bzw. 3 Beispiele für digital-born Daten: Videospiele; Protokolle, die als Worddokumente abgespeichert wurden; Fahndungsdatenbanken. 4 Im Gegensatz dazu, das Verständnis von Metadaten im DaSCH. Dort wird ein grundlegendes Set an Informationen zu einem Projekt als Metadaten verstanden. 5 Hartmann, Sarah: Metadatenstandards. Teil 2 der Einführung in die Interoperabilität von Metadaten und Metdadatenformaten, Göttingen 05.11.2010. Online: , Stand: 11.05.2017. !"#$%#"&"'()*'+",-.-,"/$,-/.-*.$0'1'METS/MODS2'1' MARCXML2'1'EAD. 4 Datenstrukturierung, die (bestenfalls) gemäss Standards erfolgt und zum Ziel hat, Daten um Informationen anzureichern. Da Daten eine zentrale Grösse in digitalen Projekten darstellen, sind Datenformate von immenser Bedeutung, um Anschlussfähigkeit und Datenaustausch zu gewährleisten. In den Anfängen des digitalen Zeitalters stellten Datenformate ein Hindernis dar, da vielfach auf proprietäre Formate zurückgegriffen wurde. Seit einigen Jahren erfolgt eine Verständigung auf freie und/oder maschinenlesbare Formate (PDF!"!XML). In diesem Papier werden vorwiegend die freien und maschinenlesbaren Formate/Systeme XML und RDF beschrieben.6 Der Entscheid für freie Datenformate erleichtert die langfristige Aufbewahrung und vereinfacht die Datennachnutzung. Offene, strukturierte Daten sind ein Schritt zu einem intelligenteren World-Wide-Web, das nach Tim Berners-Lee als Semantic Web beschrieben werden kann.!6+!0$%&%-!7%*4!&899%+! 6+:8'-;*$8+%+!$+!%$+%'!<'*!1+0!=%$&%!&*'1>*1'$%'*!5%'0%+?!0$%!%$+%!)%&&%'%!@%';')%$*1+(!01'A.! B;&A.$+%+!%'-C(9$A.*?!;9&!0$%&!)$&9;+(!0%'!D;99!$&*E!F8!&899!0$%!;1*8-;*$&A.%!@%';')%$*1+(!G8+! 6+:8'-;*$8+%+!G%'%$+:;A.*!1+0!G%')%&&%'*!5%'0%+E!"!RDF?!"!RDFS!1+0!"!OWL bilden grundlegende Bestandteile des Semantic Web. Semantic Web Technologien versprechen die Extraktion von Informationen anstelle von extrahierten Texten oder Textteilen. Entsprechend sind potentere Abfrage- und Auswertungsmechanismen denkbar als etwa durch relationale Datenbanken möglich sind.7 Datenaufbereitung und Daten(re-)präsentation Die Trennung von Datenaufbereitung (Datenstrukturierung /-modellierung und Erfassung) und Datenpräsentation hat sich etabliert. Da Erwartungen in Bezug auf die Darstellung von Daten stark im Fluss sind, erfordert sie eine regelmässige Anpassung der Präsentation, die jedoch nichts an der Aufbereitung und Strukturierung der Daten ändern soll. Umgekehrt sollen auch Anpassungen im Datenmodell keine Auswirkungen auf die Präsentation haben. Die strikte Trennung von Präsentation und Daten führt dazu, dass aufgrund derselben Datengrundlage unterschiedliche Präsentationen aufgesetzt werden können, die sich jeweils an ein unterschiedliches Publikum richten.8 Im Buchzeitalter wurde auf die visuelle Wiedergabe von Informationen (Textsatz, Tabellen etc.) fokussiert. Digitale Daten zeichnen sich jedoch dadurch aus, dass sie mit ihren 6 Die vorgeschlagenen/beschriebenen Datenstandards entsprechen nicht den Vorgaben der KOST zur langfristigen Aufbewahrung von Daten. 7 Kuczera, Andreas: Graphdatenbanken für Historiker. Netzwerke in den Registern der Regesten Kaiser Friedrichs III. mit neo4j und Gephi., Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte, 05.05.2015, . Sogenannte Friend-of-A-Friend (FOAF) Abfragen sind in relationalen Datenbanken nur mit grossem Aufwand möglich und selten tatsächlich realisiert. Kuczera, Andreas: Das Deutsche Textarchiv in der Graphenwelt, Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte, 04.04.2017, . 8 Analog zu: Sahle, Patrick: Digitale Editionsformen. Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels. Teil 2: Befunde, Theorie und Methodik., Bd. 2 / 3, Norderstedt 2013 (Schriften des IDE 8). Online: . Dort bezogen auf digitale Editionen: Es handelt sich bei jeglichen Ausgaben jeweils nur um eine mögliche Darstellungs-/Präsentationsart. 5 Verknüpfungen und in ihrer Gänze nur verlustbehaftet visuell wiedergegeben werden können: Jede Präsentation ist nur eine mögliche Form der Datenwiedergabe. Bei allen Hinweisen auf Standardisierung und Strukturierung bleibt der Hinweis auf einen kritischen Umgang mit digitalen Daten und Infrastrukturen jeglicher Art zentral. Standards und Infrastrukturen widerspiegeln epistemologische Grundannahmen und sehen (implizite) Methoden und Praktiken vor. Entsprechend gilt es nach Machtstrukturen zu fragen, die durch die Daten, die Datenstrukturierung und -wiedergabe gestärkt oder unterstützt werden. Die intersektionale Forschung in den Digital Humanities zielt aktuell vor allem auf die Sichtbarmachung und damit offensive Diskussion solcher Probleme.9 Glossar Im Glossar werden zentrale Begriffe kurz definiert. Die Relevanz für Projekte in den Geschichtswissenschaften sind kursiv in der rechten Spalte platziert. Grau unterlegt folgen jeweils Beispiele. 9 Siehe insbesondere D’Ignazio, Catherine; Klein, Lauren F.: Data Feminism, Cambridge, Massachusetts 2020. Online: , Stand: 18.03.2022. Jarrett, Kylie: The Digital Housewife. Feminism, Labour and Digital Media, 2016. Losh, Elizabeth; Wernimont, Jacqueline: Bodies of Information: Intersectional Feminism and the Digital Humanities, 2018 (Debates in the Digital Humanities). Online: , Stand: 18.03.2022. Russell, Legacy: Glitch Feminism. A Manifesto, 2020 und Ortolja-Baird, Alexandra; Nyhan, Julianne: Encoding the haunting of an object catalogue: on the potential of digital technologies to perpetuate or subvert the silence and bias of the early-modern archive1, in: Digital Scholarship in the Humanities, 19.10.2021, S. fqab065. Online: , Stand: 18.03.2022. 6 Definitionen Daten Daten sind einzelne Fakten, Zeitpunkte, kalendarische Angaben etc., die durch Beobachtung, Messung oder andere Aufzeichungsformen erfasst worden sind und als zeichenförmige Informationen vorliegen. Daten können in unterschiedlichen Formen und Strukturierungsgraden erfasst werden. Das Verständnis von Strukturierung variiert dabei stark und es gibt keine genauen Abgrenzungen zwischen den verschiedenen Graden (typischerweise unstrukturierte, semistrukturierte und strukturierte Daten). Dirty/noisy und clean Data Daten entstehen nicht aus dem nichts, sondern werden erhoben. Die Resultate solcher Prozesse sind häufig sog. dirty/noisy data, also «unsaubere» Daten. Auch diese Daten(-stämme) können sich als wertvoll und auswertbar für die Forschung erweisen. Datensäuberungsprozesse können genutzt werden, um die erhobenen Daten in eine Form zu bringen, die für eine Forschungsfrage zielführender/relevanter ist, sog. clean data. Prozesse der Datenreinigung führen jedoch immer zu Verlusten und Umwandlungen, die in der Forschung intensiv diskutiert werden.10 Unstrukturierte Daten Unstrukturierte Daten liegen in einer nicht formalisierten Struktur vor, wie Unstrukturierte Daten etwa Texte aus Digitalisierung und Texterkennung oder stammen häufig aus umfangreichen Textverarbeitungsprogrammen sowie die meisten Bild-, Audio- und Digitalisierungsvorgäng Videodateien. Sie verfügen über kein Datenmodell, das über technische en und sind Metadaten (Anlage und Verarbeitung der Datei) hinausgehtE!6-!H;.-%+!0%'! Steinbrüche für das Auffinden von Bildern "!Datenaufbereitung wird mittels verschiedener Formen versucht, den oder Texten. Quantität nicht Qualität ist das Daten Struktur(en) zuzuordnen. Automatische und halbautomatische Hauptmerkmal der Verfahren (häufig mit computerlinguistischem Hintergrund) können bei der Datenform. Strukturierung unterstützend eingesetzt werden. 10 Siehe insbesondere Rawson, Katie; Muñoz, Trevor: Against Cleaning (Chapter 23), in: Gold, Matthew K.; Klein, Lauren F. (Hg.): Debates in the Digital Humanities 2019. Online: , Stand: 21.03.2022. 7 OCR gelesene Texte liegen in einer un- bzw. wenig strukturierten Form vor. TXT-Dateien sind ebenfalls unstrukturierte Textablagen. Ein weiteres Beispiel unstrukturierter Daten sind Texte in Google Books. Semi-strukturierte oder schwach strukturierte Daten Semistrukturierte Daten sind nicht strukturiert, aber im Gegensatz zu unstrukturierten Daten können sie entweder Metadaten enthalten, etwa Bilder (Ort, Aufnahmedatum usw.) oder E-Mails (Empfänger, Datum usw.), und/oder andererseits Tags, wie XML-codierte Texte oder JSON-Dateien. Zwischen strukturierten und unstrukturierten Daten gibt es ein weites Feld an Ausprägungen. Die Struktur der Daten kann nur teilweise definiert sein, z.B. in einem Schlüssel/Wert-Paar, d.h. es ist nur der Sinn des Schlüssels oder in einer Tabelle nur die Bedeutung der Spalte bekannt, aber nicht die des Inhalts bzw. dieser liegt in reiner Text-form vor. Solche Daten sind typischerweise XML-kodierte Texte, Tabellen oder Metadaten zu digitalen Ressourcen. Halbstrukturierte Daten: Textedition der Jahrrechnungen der Stadt Basel 1535 bis 1610 (https://gams.uni-graz.at/context:srbas, Stand: 23.12.2021) Strukturierte Daten Strukturierte Daten liegen in einer ausserhalb der Daten beschriebenen Strukturierte Daten sinngebenden Struktur vor und verlinken möglichst eindeutig identifizierte lassen sich schnell und häufig ohne grösseren Entitäten. Typischerweise handelt es sich um relationale Datenbanken und Aufwand linked data!2*%$95%$&%!);&$%'%+0!;1:!I.%&;1'$!1+0!"!Ontologien). weiterverarbeiten und auswerten. Zentral an strukturierten Daten ist die Dokumentation der Strukturierung, sodass nachvollzogen werden kann, welche Strukturierungsentschei de aufgrund welcher Annahmen/Gegebenhei ten getroffen wurden. Hochgradig strukturierte Daten: Amtliches Gemeindeverzeichnis (https://www.bfs.admin.ch/bfs/de/home/grundlagen/agvch.html, Stand: 23.12.2021) 8 Zeichensätze/Unicode Unicode ist ein internationaler Standard, in dem langfristig für jedes Die korrekte und sinntragende Schriftzeichen oder Textelement aller bekannten nachhaltige Abbildung von Zeichen ist für Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel Texteditionen zentral. ist es, die Verwendung unterschiedlicher und inkompatibler Kodierungen in Um Austauschbarkeit verschiedenen Ländern oder Kulturkreisen zu beseitigen. Unicode wird zu ermöglichen, sind ständig um Zeichen weiterer Schriftsysteme ergänzt.11 (universelle) Standards anzuwenden. Zur Wiedergabe der Sonderzeichen, z.B. der kombinierten Zeichen, wird die Unicode Normalization Form D (NFD) verwendet. Fehlende Sonderzeichen können beispielsweise via MUFI (Medieval Unicode Font Initiative) codiert werden. Es gibt sehr viele Fonts, die frei zugänglich sind, z.B. Andron Scriptor https://mufi.info/m.php?p=mufi&i=968. Weitere umfangreiche Schriften mit grossem Zeichensatz und zusätzliche Werkzeuge zur Anpassung von Tastaturbelegungen findet man auf sil.org. 11 o.A.: Unicode, in: Wikipedia, o.D., , Stand: 28.04.2017. 9 Auszeichnungs- und Strukturierungsformen Datenmodelle operationalisieren Datenmodell Forschungsfragen. Sie Ein Datenmodell ist ein formales Modell der zu beschreibenden und zu ermöglichen es, Forschungsfragen verarbeitenden Daten eines Anwendungsbereichs (z.B. einer Datenbank, digital zu prozessieren einer Edition oder aller für ein Forschungsprojekt relevanten, zu erhebenden und sichern eine Daten) und ihrer Beziehung zueinander.12 Datenmodelle ermöglichen höhere Qualität der komplexe maschinelle Operationen mit den Daten. Wenn sie dabei Daten, indem sie Standards folgen, ermöglichen sie darüber hinaus auch den Austausch oder Bedingungen das Zusammenführen von Daten und tragen so zur Nachhaltigkeit bei.13 formulieren, denen Daten bei der Eingabe entsprechen müssen. Quelle: Körner, Peter: Zwei (kleine) Beispiele für Entity Relationship Diagramme als SVG, online: https://de.wikipedia.org/wiki/Datei:Er-diagramm.svg Datenbank Datenbanken und Datenbankmanagementsysteme sind Systeme zur Datenverwaltung. Je nach Anwendungsszenario unterscheiden sich ihre Aufgaben. Dazu gehören die effiziente, widerspruchsfreie, dauerhafte Speicherung und Darstellung, bzw. Auswertung von Daten. Wichtige Formen sind relationale Datenbanken und graphbasierte Datenbanken. Viele Datensysteme garantieren für die basalen Transaktionen (Create, Read, Update, Delete) gewisse Eigenschaften (Atomicity, Consistency, Isolation, Durability). 12 o.A.: Datenmodell, in: Wikipedia, o.D., , Stand: 21.12.2021. 13 Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hg.): Digital Humanities. Eine Einführung, Stuttgart 2017, S. 100. 10 Relationale Datenbank Relationale Datenbanken zeichnen sich dadurch aus, dass sie aus Forschungsdatenbanke verknüpften, zweidimensionalen Tabellen gebildet werden. Relationale n sind typischerweise auf konkrete Datenbanken sind seit längerer Zeit erprobt und stabil, aber anders als Fragestellungen graphbasierte Datenbanken typischerweise unflexibler bei der Erweiterung ausgerichtet und des Datenbankmodells. erlauben die Befüllung Relationale Datenbanken weisen eine hohe Datenkonsistenz auf. von klar definierten Feldern. Die Normalisierte relationale Datenbanken ermöglichen eine widerspruchsfreie Anschlussfähigkeit und Datenhaltung und tragen somit zur Datenkonsistenz bei. Relationale die Interoperabilität Datenbanksysteme bieten zudem Funktionen, mit denen sich müssen bei der Anlage Integritätsbedingungen definieren und automatisch überprüfen lassen. Bis berücksichtigt werden. heute wird die elektronische Datenverwaltung vom relationalen Datenbankmodell dominiert. Ein langjähriges Datenbankprojekt ist das Repertorium Academicum Germanium (http://www.rag- online.org/, Stand: 23.12.2021), das elaborierte Abfragemöglichkeiten innerhalb der Datenbank bietet. Graphbasierte Datenbanken Graphbasierte Datenbanken definieren sich über die Vernetzung von Die Bündelung zu einzelnen Objekten (und nicht über Tabellen). Graphen erlaubt gleichzeitig mehrere Aussagen über Informationen können in Form von Graphen etwa als Triple in RDF Entitäten analog zu gespeichert werden, also in Form vieler simpler Gleichungen bestehend aus Datenblättern in den drei Teilen Subjekt–Prädikat–Objekt. Datenbanken. Mit RDF lassen sich Ein Graph meint also eine Sammlung von Aussagen in Form von flexibel Vernetzungen, womit mehrere Eigenschaften oder Beziehungen zu einem Wissensstrukturen Objekt beziehungsweise zwischen Objekten ausgedrückt werden können. wiedergeben, ohne dass Normalisierungen/ Anpassungen an RDF (Resource Description Framework) ist ein von der W3C vorgegebene verabschiedetes Modell zur flexiblen Repräsentation von Daten als Triple Datenstrukturen (wie (Dreiheiten), bestehend aus Subjekt (zu beschreibende Ressource), etwa in relationalen Datenbanken) Prädikat (Eigenschaft) und Objekt (Wert).14!B$*!H#D!>C++%+!%$+:;A.! zwangsläufig notwendig sind. /%4$%.1+(%+!45$&A.%+!H%&&81'A%+!;)(%)$90%*!5%'0%+!2@%'5%$&%3E!B$*!H#D! '%J'K&%+*$%'*%!#;*%+!)$90%+!7%*45%'>%E!L-!"!Vokabulare 1+0!"!Ontologien 14 Siehe die Website der W3C: , Stand: 21.03.2022. Aktuell wird bei der W3C an RDF- star and SPARQL-star gearbeitet. Dadurch können Aussagen, z.B. hinsichtlich Provenienz von Informationen/Annotationen, über ein Triple gemacht werden. Siehe https://w3c.github.io/rdf-star/cg- spec/editors_draft.html, https://www.ontotext.com/knowledgehub/fundamentals/what-is-rdf-star/, Stand: 21.03.2022. 11 41!0%:$+$%'%+!1+0!;)41)$90%+?!%M$&*$%'*!"!RDFS!2H#DNFA.%-;!:O'!%$+:;A.%! DK99%3!)45E!0$%!=%)!P+*898(Q!R;+(1;(%!2"!OWL zur Bildung komplexer Vokabulare). Triplestore nennt man eine Datenbank, die zur Aufbewahrung von (RDF- )Triples gebaut ist. Ähnliche Aufgaben erfüllen Graphendatenbanken, die jedoch weniger spezifisch auf RDF-Technologien zugeschnitten sind. Die Auslieferung der Triples erfolgt über «Query Languages» (z.B. " SPARQL). Graphdatenbank sind gegenüber optimierten relationalen Datenbanken weniger performant und entsprechend langsamer. Die Modellierung erfolgt explizit und wird dadurch komplexer. Subjekt–Prädikat–Objekt: Person X – ist Autor von – NN. Damit wird der Aussagesatz gebildet: «Max Frisch» (Subjekt) «ist der Autor von» (Prädikat) «Homo Faber» (Objekt). Ein Editionsprojekt, das RDF als Technologie nutzt: Euler Edition der «Christian Apocryphal Literature»: , Stand: 18.03.2022. XML (eXtensible Markup Language)/Textauszeichnung XML ist eine Auszeichnungssprache, die verwendet wird, um den Austausch Das freie Format und von Daten zu erleichtern. In XML können die Daten unterschiedliche die Maschinenlesbarkeit Formen annehmen, etwa als Metadaten (z.B. bibliografische Informationen) machen XML zu einer oder auch als Daten selbst (z.B. Editionen). sinnvollen Aufbereitungsform von Mit Textauszeichnung ist die strukturierte Auszeichnung (häufig nach strukturierten Daten, die als Texte vorliegen. Schemata) von digitalen Texten gemeint, meist in Form von XML. XML (Extensible Markup Language) ist eine Metasprache, mit der Markup- Sprachen definiert werden können, insbesondere ihre Elemente, deren Attribute und deren Beziehungen zueinander. Mit XML können Texte strukturiert, mit Informationen angereichert und maschinell lesbar gemacht werden; dabei bleiben die Dateien auch für Menschen lesbar. Geschieht die Auszeichnung nach definierten Standards, können die annotierten Dokumente ausgetauscht und vernetzt werden. Mit XML-Schemata lassen sich Markup-Sprachen formal definieren. XML- basierte Markup-Sprachen bzw. unter ihrer Verwendung erstellte Dokumente sind geordnete Hierarchien (Baumstrukturen). XML ist eine offene Sprache, weshalb die Daten nur mit Schemata bzw. der Verwendung von Standards verstanden und nachgenutzt werden können. I%M*%0$*$8+%+!5%'0%+!.%1*%!*QJ$&A.%'5%$&%!$+!SBR!1-(%&%*4*!1+0!+;A.!@8'(;)%+!&J%4$:$&A.%'! <1&4%$A.+1+(&&J';A.%+!2"!TEI?!"!CEI?!"!MEI) getaggt. 12 Struktur einer typischen XML-Datei nach TEI:

Schema Erst durch die T$+!FA.%-;!$&*!%$+%!:8'-;9%!/%&A.'%$)1+(!0%'!F*'1>*1'!G8+!#;*%+E! Anwendung von Schemata sind sprachlich artikulierte Definitionen, zum Aufbau einer Datei Schemata wird und definieren, wie unterschiedliche Teile der Auszeichnung einer (automatisiert) →!Ontologie miteinander zusammenhängen. «Ein Schema erlaubt es [...], nachvollziehbar, welche Auszeichnungen und bei [...] der Erfassung von Daten gemeinsame Regeln zu verwenden, und Kombinationen von damit sicherzustellen, dass bestimmte Informationen auch erfasst werden Auszeichnungen oder bestimmte Strukturen ausgeschlossen sind.»15 erlaubt, beziehungsweise FA.%-;*;!0$%+%+!0%'!"!Interoperabilität. möglich sind. In XML und RDF lassen sich Schemata anwenden. Das Schema validiert, dass die Daten wohlgeformt (well formed), aber nicht unbedingt gültig (valid) sind, d. h. das Schema kontrolliert nicht, ob die Daten den Regeln des Modells (z. B. der Semantik der TEI) entsprechen. XML Schema Zur Kontrolle und Validierung von XML-Dateien können Schemata verknüpft werden. Dadurch wird es möglich, gewisse Auszeichnungen nur an klar definierten Stellen zu erlauben und damit Austausch und Interpretation der Daten zu erleichtern. Schemata sind restriktiv und bilden die Syntax von XML-Codes. Schemata unterstützen darüber hinaus die Datenerfassung, indem XML-Editoren kontextabhängig erlaubte Werte anbieten. 15 Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hg.): Digital Humanities. Eine Einführung, Stuttgart 2017, S. 135. 13 Es ist zwischen den Sprachen zur Validierung der Grammatik (XML Schema, Relax NG) und Schematron zu unterscheiden, wobei Letztere als Ergänzung zu Ersteren zu verstehen ist. Im Falle der TEI wird das Schema automatisch aus ODD (One Document Does it all) erzeugt, das es ermöglicht, dem Schema eine in natürlicher Sprache verfasste Dokumentation zuzuordnen. RDF Schema H#DF!2H#DNFA.%-;3!$&*!%$+%!T'5%$*%'1+(!G8+!"!RDF!41'!/$901+(!G8+! 2%$+:;A.%+3!"!Vokabularen!1+0!"!Ontologien. Damit lassen sich Klassen (Typen) von Ressourcen und ihre möglichen Eigenschaften definieren. Die Notation basiert auf RDF.16 Im Kontext von Metadaten bedeutet die Anwendung von Schemata, deren maschinellen systemübergreifenden Austausch unter möglichst geringem Aufwand.17 Ontologie Mit Hilfe von Ontologien P+*898($%+!&$+0!&*'1>*1'$%'*%!#;*%+?!0$%!;+.;+0!%$+%&!%$+0%1*$(!0%:$+$%'*%+! sind Informationen 1+0!08>1-%+*$%'*%+!"!Datenmodells den historischen Diskurs über die explizit (ohne verborgene Wirklichkeit, d.h. Informationen über Entitäten (Orte, Konzepte, Berufe etc.), Annahmen), unifiziert deren Merkmale und Beziehungen (Äquivalenz, Hierarchie etc.) samt den und maschinenlesbar. Metadaten zu ihrer Definition und Entstehung abbilden. . T$+4%9+%!6+:8'-;*$8+%+,B%'>-;9%,/%4$%.1+(%+!>C++%+!;1:!"!Vokabularen! )45E!"!I.%&;1'$!)%'1.%+E Vokabular Ein (kontrolliertes) Vokabular ist eine Schlagwortliste mit einer Anzahl von Wörtern, die definiert vorliegen bzw. zu Projektbeginn definiert werden. 16 Siehe dazu die Definition der W3C: , Stand: 11.05.2017. 17 Hartmann, Sarah: Metadatenstandards. Teil 2 der Einführung in die Interoperabilität von Metadaten und Metdadatenformaten, Göttingen 05.11.2010. Online: , Stand: 11.05.2017. 14 Thesaurus Thesauri sind kontrollierte Vokabulare, die so strukturiert sind, dass sowohl Thesauri helfen der hierarchische als auch netzwerkartige Beziehungen ausgedrückt werden wissenschaftlich fundierten inhaltlichen (können). Ein Thesaurus soll ein Themengebiet beschreiben und Erschliessung von repräsentieren. Texten und erlauben die Suche und Auszeichnung mit heutigen Begrifflichkeiten. Jurivoc: Dreisprachiger Thesaurus des Schweizerischen Bundesgerichts und des ehemaligen Eidgenössischen Versicherungsgerichts. Adresse/Adressierbarkeit Erst durch die L-!#;*%+!(%4$%9*!;1:'1:%+!41!>C++%+?!-1&&!%$+%!<0'%&&$%');'>%$*!(%(%)%+! Adressierbarkeit wird es &%$+E!6+&)%&8+0%'%!:O'!"!Semantic Web!<+5%+01+(%+!$&*!0$%!29;+(:'$&*$(%3! möglich, Ressourcen zielgenau und <1:'1:);'>%$*!G8+!#;*%+!+C*$(E!#;';1:!;1:);1%+0!$&*!%&!-C(9$A.?!0$%! wiederholt aufzurufen. #;*%+$+.;9*%!'%(%9-K&&$(!41!%M*';.$%'%+!1+0!0;-$*!;+0%'%!6+.;9*%! ;>*1;9$&$%'*!;+41'%$A.%'+E!78*5%+0$(!0;:O'!&$+0!"!Identifier?!"!URI/IRI!80%'! "!DOIE!#1'A.!0%+!T$+&;*4!%$+%&!"!Permalinks kann somit ein Datensatz langfristig aufgerufen werden. 6-!H;.-%+!0%&!U'8V%>*&!"!Metagrid werden dank der Adressierbarkeit der Informationen Lebensdaten der aufgenommenen Personen unter den Partnern ausgetauscht. Identifier/Persistent Identifier Ein Zeichenstring gilt als Identifikationsinstrument, wenn dieser ein Objekt Über Identifier werden eindeutig zuordnet. Informationen zu Entitäten adressier- und Um Änderungen in Identifiern möglichst zu vermeiden, wird empfohlen, eine abrufbar. zufällige Kombination aus Zahlen und Buchstaben zu verwenden und keine Klarnamen oder ähnliches. Persistent Identifier ist ein permanenter Identifikator, d.h. die Institution, die ihn zur Verfügung stellt, garantiert, dass er langfristig erhalten bleibt. Die Identifikationsnummer einer Person in einer Datenbank ist ein Identifier. 15 URL LHR!2L+$:8'-!H%&81'A%!R8A;*8'3!$&*!%$+%!6+*%'+%*;0'%&&%?!0$%!%$+%! H%&&81'A%?!4E/E!%$+%!=%)&%$*%?!98>;9$&$%'*!1+0!$0%+*$:$4$%'*!&85$%!0;&! W8+*;>*J'8*8>899!2.K1:$(!"!http/https) definiert. URI/IRI URI/IRI (Uniform Resource Identifier/Internationalized Resource Identifier) Die Vergabe von URI ist ein eindeutiger Identifikator für eine Ressource. Eine URI/IRI kann aus ermöglicht die Adressierbarkeit, bspw. einer URL bestehen. über Browser. URN URN (Uniform Resource Name) ist ein URI mit dem Schema urn. Es handelt sich um einen dauerhaften, ortsunabhängigen Bezeichner für eine digitale Ressource. ARK Archival Resource Keys (ARKs) dienen als Persistent Identifier oder stabile, vertrauenswürdige Referenzen für Informationsobjekte. Das ARK-System ist offen, und jede Einrichtung kann ARKs vergeben, sobald sie sich registriert hat und eine sogenannte Name Assigning Authority Number (NAAN) besitzt. DOI #P6!2#$($*;9!#8A1-%+*!P)V%A*!60%+*$:$%'3!$&*!%$+!%$+0%1*$(%'!1+0!0;1%'.;:*%'! 0$($*;9%'!60%+*$:$>;*8'!:O'!J.Q&$&A.%?!0$($*;9%!80%'!;)&*';>*%!P)V%>*%E!T'!5$'0! -8-%+*;+!G8'!;99%-!:O'!P+9$+%N<'*$>%9!G8+!5$&&%+&A.;:*9$A.%+! D;A.4%$*&A.'$:*%+!1+0!#;*%+J1)9$>;*$8+%+!2)&J5E!"!ZENODO) verwendet. 16 Während URL und URI frei durch den jeweiligen Webmaster vergeben werden können, sind DOI kostenpflichtig zu beziehen.18 URN werden in der Schweiz durch die Nationalbibliothek vergeben. Link/Permalink R$+>!$&*!0$%!W1'4:8'-!G8+!XQJ%'9$+>?!0E.E!%$+!@%'5%$&!;1:!%$+%+!XQJ%'*%M*! 2G(9E!;1A.!"!URL). Mit Permalinks kann garantiert werden, dass T$+!U%'-;9$+>!)%4%$A.+%*!%$+%!"!URL, die dauerhaft bestehen bleibt. Damit eine Information langfristig aufgefunden wird ein digitales Objekt zitierfähig, da der Link immer auf das Dokument/die werden kann. Ressource verweist. Datenaustausch/Kommunikation/Vernetzung/Identifikation Datenabruf und Schnittstellen Standardisierte Angebote zum Datenaustausch sind zentral, um eigene Daten, I%M*%!1+0! Schnittstellen #8>1-%+*%!0%'!Y::%+*9$A.>%$*!41'!@%':O(1+(!41!&*%99%+E!#;:O'!%M$&*$%'%+! ermöglichen das Aggregieren von Daten 1+*%'&A.$%09$A.%!BC(9$A.>%$*%+Z![)%'!=%)&$*%&?!#85+98;0!2DIU3!80%'!$-! und Metadaten aus unterschiedlichen 60%;9:;99!01'A.!0$%!D'%$(;)%!O)%'!"!Schnittstellen!2"!RESTful-API/ SPARQL, Quellen/von unterschiedlichen SPARQL Protocol and RDF Query Language). Anbietern. Die Freigabe über Schnittstellen erlaubt live Abfragen. Die Daten werden bei Abfragen über Schnittstellen nur bei entsprechenden Berechtigungen verändert/angepasst. HTTP Hypertext-Transfer-Protocol (HTTP) ist ein Datenübertragungsprotokoll und wird hauptsächlich eingesetzt, um Websites in Webbrowser zu laden. Über das Protokoll können Daten versandt werden. HTTPS ist die verschlüsselte Variante des Protokolls, damit kann ein sicherer Datenverkehr gewährleistet werden. 18 Zu den Kosten für DOI, siehe bspw. den Blog von DataCite zum Thema: https://datacite.org/blog/the- new-datacite-membership-and-fees-model/. 17 API/RESTful-API Eine Programmierschnittstelle (englisch application programming REST erlaubt den interface, wörtlich «Anwendungs-programmier-schnittstelle»), genauer Zugriff und die Anpassung von Schnittstelle zur Anwendungsprogrammierung, häufig nur kurz API genannt, eindeutig identifizierten ist ein Programmteil, der von einem Softwaresystem anderen Programmen Ressourcen (bspw. zur Anbindung an das System zur Verfügung gestellt wird.19 über URI), aber auch von Suchabfragen, die über die URL Eine RESTful-API (Representational State Transfer Application mitgegeben werden Programming Interface) ist eine webbasierte Schnittstelle für den Zugriff auf können. eine Datenbank durch eine Applikation wie einen Webbrowser. Die Anfragen an eine RESTful-API erfolgen über die verschiedenen Methoden von HTTP auf URLs mit vordefinierten Pfadsegmenten (GET, DELETE etc.). Dadurch können Daten gelesen, erzeugt, modifiziert oder gelöscht werden. Ausgaben können als JSON!1+0!"!XML erfolgen.20 Aus den Abfragen ist es möglich, gewünschte Daten/Informationen zu extrahieren, wenn die Daten nach Vorgaben strukturiert vorliegen und entsprechend an eine Auswertung weitergegeben werden. SPARQL SPARQL sorgt für eine SPARQL!$&*!0$%!<):';(%&J';A.%!:O'!H#DN#;*%+);+>%+?!0;-$*!>C++%+! gezielte Extraktion der <+:';(%+!;+!%$+%+!"!Triplestore formuliert werden (SPARQL-Endpoint), um in Triple-Form hinterlegten gezielt nach Aussagen/Datensätzen (Triples) zu suchen. Ausserdem kann Informationen. SPARQL genutzt werden, Daten (Triples) in einem Triplestore zu erzeugen (SPARUL: SPARQL/Update).21 Typischerweise werden die Abfrageresultate als XML oder Turtle-Datei mit einer Zeile pro Resultat ausgegeben. 19 o.A.: Programmierschnittstelle, in: Wikipedia, o.D., , Stand: 21.12.2021. 20 Siehe für eine ausführliche Einführung: Rodriguez, Alex: RESTful Web services. The basics, in: IBM. Developer Works, 09.02.2015, , Stand: 19.04.2017. 21 Siehe für eine ausführliche Dokumentation: W3C SPARQL Working Group: SPARQL 1.1 Overview, W3C, 21.03.2013, , Stand: 19.04.2017. 18 Export und Datenaustausch Open Access/Open Source/Open Data Open Access bedeutet permanenten, freien, kostenlosen und Ermöglicht die freie elektronischen Zugang zu wissenschaftlichen und anderen Publikationen.22 Nachnutzung von Erschliessungs- und Forschungsarbeiten. Um den Zugriff auf die Datenbasis (unabhängig davon, ob es sich um Softwarecode oder wissenschaftliche Arbeiten handelt) langfristig und Die Offenlegung von barrierefrei zu gewährleisten, verfolgt eine Vielzahl von namhaften Codes und Texten erlaubt die einfache und Institutionen Open Access/Open Source Strategien.23 korrekte Nachnutzung. Weiterentwicklungen Frei verfügbare und ohne gewichtige Einschränkung nutzbare Daten werden können auf bereits bestehenden als Open Data!)%4%$A.+%*E!/%>;++*!$&*!0;&!DO+:NF*%'+%NB80%99!G8+!I$-! Erkenntnissen/Systeme /%'+%'&NR%%?!0;&!1+*%'&A.$%09$A.%!F*1:%+!8::%+%'!#;*%+!0%:$+$%'*Z!G8+!%$+%-! n aufbauen. F*%'+!28::%+%!R$4%+43!)$&!41!:O+:!F*%'+%+!28::%+%!R$4%+4?!&*'1>*1'$%'*%&?! 8::%+%&,+$A.*!J'8J'$%*K'%&!D8'-;*?!#;*%+!-$*!"!URIs verlinkt).24 Die Open Data Bewegung (in der Schweiz: https://opendata.ch/) ist der Ansicht, dass frei zugängliche Daten Effizienz und Innovation fördern und zu mehr Transparenz (in Forschung und Verwaltung) führen.25 Open Data Das Portal für offene Daten der Verwaltung der Schweiz, betrieben vom Schweizerischen Bundesarchiv: , Stand: 23.12.2021. Linked (Open) Data (LD/LOD) Linked Open Data Als Linked Open Data!2RP#3!5%'0%+!O)%'!0;&!=%)!:'%$!G%':O();'%! erlaubt die Vernetzung G%'+%*4*%!1+0!&*'1>*1'$%'*%!#;*%+!)%4%$A.+%*?!0$%!O)%'!"!URIs/IRIs mit bereits bestehenden und andernorts identifiziert und dereferenziert (aufgelöst) werden können.26!RP#!5$'0!.%1*%! befindlichen Daten(beständen) und -%$&*%+&!-$*!"!Semantic WebNI%A.+898($%+!5$%!"!RDF!1-(%&%*4*!21+*%'! somit die Nutzung von bereits angehäuftem @%'5%+01+(!G8+!"!Ontologien?!<):';(%!O)%'!"!SPARQL-Endpunkte). Wissen. 22 Nach SAGW, siehe dort auch das Glossar zum Thema: , Stand: 18.03.2022. 23 Siehe dazu auch die Berliner Erklärung zum Open Access: Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, 22.10.2003, , Stand: 19.04.2017. 24 Vgl.< http://5stardata.info/de/>, Stand: 23.12.2021. 25 Siehe die Website: , Stand: 12.5.2017. 26 Siehe die Website: , Stand 12.05.2017. 19 swissTopo stellt geographische Informationen zu einzelnen Gemeinden und anderen geographischen Merkmalen als Linked Open Data zur Verfügung: , Stand: 23.12.2021. Wikidata Wikidata ist der Name einer frei bearbeitbaren Datenbank, die unter anderem Wikidata stellt Linked das Ziel hat, Wikipedia zu unterstützen. Das Projekt wurde von Wikimedia Open Data zur Verfügung, die durch Deutschland gestartet und stellt als gemeinsame Quelle bestimmte Datentypen die Wikipedia- für Wikimedia-Projekte bereit, zum Beispiel Geburtsdaten oder sonstige Community gepflegt allgemeingültige Daten, die in allen Artikeln der Wikimedia-Projekte verwendet wird. werden können.27 Henker als Familienname oder als Konzept vgl. , Stand: 23.12.2021. Nachhaltige Daten (und Code) Digitale Daten (und Code) sind oft «nur» Arbeitsmittel oder Zwischenresultate und haben temporären Charakter. Im Gegensatz zu Papier lassen sich viele Dateiformate jedoch ohne die Umgebung, in der sie entstanden sind, weder lesen noch rekonstruieren. Um digitale Daten und ihre Repräsentationen langfristig nachnutzbar zu machen, müssen sie deshalb in Formaten mit offenen Spezifikationen gespeichert werden, die langfristig genutzt werden können. Prinzipien für langlebige Daten wurden beispielsweise im Rahmen des Endings Project entwickelt. 27 o.A.: Wikidata, in: Wikipedia, o.D., , Stand: 23.12.2021. 20 Katalog für Standards mit Bezug zu den Geschichtswissenschaften Gedächtnisinstitutionen haben Standards für die Erfassung von (Meta-)Daten definiert, um den Datenaustausch zu ermöglichen. Kenntnisse der wichtigsten Standards helfen, die Metadaten der Gedächtnisinstitutionen zu interpretieren, insbesondere wenn die Daten (automatisiert) nachgenutzt werden. Es gibt Standards in den Bereichen formale Beschreibung, normierter Sucheinstieg (Autorität, Normdateien) und Datenformat. Regeln zur formalen Beschreibung von Dokumenten und anderen Ressourcen in Gedächtnisinstitutionen Archive Der Verein Schweizerischer Archivar:innen (VSA-AAS) hat seit 2005 eine eigene Arbeitsgruppe «Normen und Standards», die sich intensiv mit dem Themenbereich auseinandersetzt. Ihre Tätigkeit ist auf der Website der Arbeitsgruppe dokumentiert. Expertengruppen der internationalen Nichtregierungsorganisation «International Council on Archives (ICA)» setzen sich für Standards in der archivischen Erschliessung ein. Trotz dieser Bemühungen existieren in der Schweiz bisher noch keine verbindlichen Standards zur Erfassung von Archivmaterial, sodass sich die in den Archivinformationssystemen befindenden Informationen leider nicht einfach vergleichen oder maschinell nachnutzen lassen. ISAD(G) = International Standard Archival Description (General) ISAD(G) ist der internationale Anwendungsstandard zur Verzeichnung Aufgrund individueller archivischer Unterlagen der ICA mit einheitlichen Pflichtfeldern und einer Handhabung in den Archiven ist ISAD(G) mehrstufigen Verzeichnungshierarchie. nur beschränkt hilfreich =$'0!5$%!;+0%'%!<'A.$G&*;+0;'0&!;>*1%99!G8+!"!H6\!;)(%9C&*E! beim Datenaustausch. ISAAR(CPF) = International Standard Archival Authority Record for Corporate Bodies, Persons, and Families ISAAR(CPF) ist der internationale Standard für Normdatensätze von ISAAR(CPF) ermöglicht Archivalien von Organisationen/Institutionen, Personen und Familien. Er den Zugriff auf die gesamte Überlieferung ermöglicht die standardisierte Erfassung der Urheber von Schriftgut und eines Aktenbildners. somit die Beschreibung des Kontexts der Produktion (Herkunft). Seine Verwendung ist weniger verbreitet als ISAD(G), weil die Erfassung zeitaufwendig ist. 21 =$'0!5$%!;+0%'%!<'A.$G&*;+0;'0&!;>*1%99!G8+!"!H6\!;)(%9C&*E! RiC = Records in Context RiC ist aktuell in Entwicklung. Der Standard versteht sich als neue Norm RiC will die zur umfassenden Beschreibung von Archivalien und ihrer Beziehungen Möglichkeiten von Linked Open Data untereinander. RiC versucht die archivischen Standards (ISAD[G], nutzen und ISAAR[CPF], ISDF, ISDIAH) mit Hilfe einer Ontologie zu einem Standard unterschiedliche zusammenzufassen. Relationen und Verbindungen zwischen Archivalien aufzeigen. F$%.%!;1A.!"!RiC-O?!"!EAD. Bibliotheken Bibliosuisse (https://bibliosuisse.ch/), vormals Bibliothek Information Schweiz, ist der nationale Verband der Bibliotheken, Informationszentren und ihrer Mitarbeitenden. Auf internationaler Ebene vertritt die IFLA (International Federation of Library Associations and Institutions) die Interessen der Informationseinrichtungen. Die IFLA hat mehrere Standards im Bereich der Informationswissenschaften herausgegeben. Die Metadaten der Bibliotheken, insbesondere die bibliografischen Aufnahmen, sind häufig frei zugänglich und können ohne Einschränkungen genutzt werden. Die bibliografischen Aufnahmen sind im MARC-Format standardisiert erfasst und enthalten häufig Verweise auf Normdaten. Die Metadaten des elektronischen Katalogs der Schweizerischen Nationalbibliothek, des Helveticat und der Bibliographie der Schweizergeschichte (BSG) sind im Format MARC21 über die Schnittstelle Z39.50 und auf Anfrage über OAI-PMH erhältlich. Eine Auswahl der Daten kann vom Portal opendata.swiss heruntergeladen werden. ISBD Die Interpunktion Die ISBD (International Standard Bibliographic Description = zwischen den verschiedenen Internationaler Standard zur Beschreibung bibliographischer Daten) ist Elementen wie ein Standard, der von der IFLA betreut wird. Die ISBD regelt die Haupttitel und Untertitel einheitliche Beschreibung von unterschiedlichen bibliothekarischen werden beim Ressourcen und ermöglicht den Datenaustausch. Datenexport mitgeliefert und müssen daher je nach Nachnutzung Die ISBD schreibt vor, welche Elemente für die Beschreibung des automatisiert gelöscht Dokuments herangezogen werden. Sie legt die Reihenfolge der werden. Elemente in der Beschreibung fest und sie bestimmt die Zeichensetzung (Deskriptionszeichen). Die ISBD ist in Überarbeitung. Sie soll künftig den Vorgaben von Linked Data genügen. 22 Beispiel für die ISBD-Zone Sachtitel und Urheberangabe: Sachtitel: erster Zusatz: weiterer Zusatz / Verfasserangabe Zwingli: widerständiger Geist mit politischem Instinkt / Franz Rueb; Bilder: Hans Rueb Das entsprechende Katalogisat in der BSG ist hier zu finden. AACR2 Die Anglo-American Cataloguing Rules sind Regeln zur formalen In den Beschreibung von Werken. Sie stammen aus den 1960er-Jahren und Katalogisierungsregeln ist bestimmt, wie die wurden mehrmals revidiert. Es war das international am weitesten formalen Elemente, wie verbreitete Regelwerk und wurde von über 30 verschiedenen Ländern z.B. der Titel, die inkl. der Schweiz übernommen.28!<<\H]!$&*!G%';9*%*!1+0!51'0%!01'A.! Autoren oder der Reihentitel eines Werks "H#!H%&81'A%!#%&A'$J*$8+!;+0!, Stand: 21.12.2021. 29 Weiterführende Informationen unter: o.A.: RDA-Info, in: DNB, 06.12.2021, , Stand: 23.12.2021. 23 Für die Beschreibung des einzelnen Werks ist die Transkription ein wichtiges Merkmal der RDA. Im Unterschied zu den AACR2 wird mit den RDA die Informationen so übertragen, wie sie in der Vorlage zu finden sind. Bei den Autorenangaben werden beispielsweise – wenn in der Vorlage vorhanden – die aufgelisteten Titel und die affiliierten Universitäten und der Wirkungsort angeführt. Beispiel einer wortwörtlichen Übertragung in Helveticat: Prof. Dr. Andreas Furrer (RA, Universität Luzern), Prof. Dr. Markus Müller-Chen (RA, Universität St. Gallen). RSWK Die Regeln für den Schlagwortkatalog sind in wissenschaftlichen Immer mehr Universalbibliotheken, in öffentlichen Bibliotheken oder in Bibliotheken erschliessen inzwischen Spezialbibliotheken Deutschlands, Österreichs und der ohne Schlagwortketten deutschsprachigen Schweiz das Regelwerk für die intellektuelle und verwenden inhaltliche Erschliessung. Sie regeln die Anwendung der verwendeten stattdessen die GND- Schlagworte, die der GND entnommen sind. Termini als Einzelschlagworte. Die RSWK ist eine präkoordinierte Indexiersprache: Reicht ein Schlagwort zur Beschreibung des Gegenstandes eines Werks nicht aus, werden die einzelnen Termini zu einer Schlagwortkette zusammengeführt. 6+!0%'!:';+4C&$&A.&J';A.$(%+!FA.5%$4!5$'0!"!RAMEAU für die Verschlagwortung in den Bibliothekssystemen verwendet. Das Werk von Thomas Maissen «Verweigerte Erinnerung. Nachrichtenlose Vermögen und die Schweizer Weltkriegsdebatte 1989–2004» wurde mit folgender Schlagwortkette versehen: Schweiz – Neutralität – Weltkrieg (1939–1945) – Vergangenheitsbewältigung – Geschichte 1989–2004. Die Zeitdimension ist mit der RSKW nicht strukturiert abfragbar (Zeitschlagwort: «Geschichte 1989– 2004»). Ist das Thema eines Werks zeitlich begrenzt, wird das Zeitschlagwort Geschichte mit der exakten Zeitdauer erfasst. FRBR/FRBRoo Die Functional Requirements for Bibliographic Records (FRBR; deutsch Während sich «Funktionale Anforderungen an bibliographische Datensätze») sind ein herkömmliche Datenmodell für bibliografische Metadaten. Sie sind heute die wichtigste Regelwerke vor allem theoretische Grundlage zur Erstellung von bibliothekarischen auf Details der Beschreibung Regelwerken.30 Die FRBR-Ontologie basiert auf dem Entity-Relationship- konzentrieren und Modell und definiert eine Reihe von grundlegenden Konzepten für die wesentliche Konzepte Katalogisierung. (bspw. «Werk», #$%!H#, Stand: 21.12.2021. 24 Beziehung zueinander zu setzen. Mit FRBR werden beispielsweise verschiedene Ausgaben und Übersetzungen eines Werks zusammengeführt, was zu einer besseren Übersicht für die Benutzer:innen führt. Beispiel: Dürrenmatt, Friedrich: Das Versprechen (Übersetzung mit Autoritätseintrag für das Werk). IFLA LRM #;&!6DR8+4%J*$8+%99%&!B80%99?!0;&!;99%!<&J%>*%! 0%'!)$)9$8(';:$&A.%+!T'&A.9$%&&1+(!;)0%A>*E!`10%-!1+*%'&*O*4*!%&!0$%!T$+)$+01+(!G8+! )$)9$8(';:$&A.%+!#;*%+!$+!R$+>%0N#;*;N<+5%+01+(%+E!T&!)%'1.*!;1:!0%+!@8'(K+(%'NB80%99%+! D1+A*$8+;9!H%a1$'%-%+*&!:8'!/$)9$8(';J.$A!H%A8'0&!2"FRBR), Functional Requirements for Authority Data (FRAD) und Functional Requirements for Subject Authority Data (FRSAD).31 Museen und Sammlungen Aufgrund der Heterogenität von Sammlungen und Museen ist die Einigung auf verbindende Standards viel komplexer. Hier genannt sind aus diesem Grund einige wenige Thesauri, Vokabulare und Metadatenstandards. Getty Vokabulare: AAT, TGN, ULAN, CONA, IA Die Vokabulare von Getty beschreiben unterschiedliche Aspekte von Objekten, Künstler:innen und Orten, die typischerweise in Museen gefunden werden. Alle Vokabulare sind strukturiert und nicht abgeschlossen. AAT = Arts and Architecture Thesaurus TGN = Getty Thesaurus of Geographic Names ULAN = Union List of Artist Names CONA = Cultural Objects Name Authority IA = Iconography Authority LIDO = Lightweight Information Describing Objects LIDO ist ein Metadatenformat zur Bereitstellung von Museums- Objektdaten in Internet-Portalen. CIDOC-CRM (CIDOC Conceptual Reference Model) CIDOC-CRM ist ein theoretisches und praktisches Werkzeug für die Informationsintegration im Bereich des kulturellen Erbes. 31 < https://www.ifla.org/resources/?oPubId=11412>, Stand: 21.03.2022. 25 Es soll eine gemeinsame Sprache für Fachleute sein, um Anforderungen an Informationssysteme zu formulieren und als Leitfaden für eine gute Praxis der konzeptionellen Modellierung dienen. Auf diese Weise kann es den «semantischen Klebstoff» liefern, der für die Vermittlung zwischen verschiedenen Quellen von Informationen für kulturelles Erbe benötigt wird, wie etwa die von Museen, Bibliotheken und Archiven veröffentlichten Informationen. Allgemeine Normdateien (Autoritätsfiles, engl. authority files) Normdaten haben folgende Zielsetzungen: ● Eindeutige Identifikation von Entitäten, ● Zusammenführen von Synonymen und Schreibvarianten, ● Unterscheidung von Homonymen sowie ● Einheitlicher Zugang mittels einer Ansetzungsform (Labels/Heading/Deskriptor). Bei den Normdaten handelt es sich um Verzeichnisse von normierten Begriffen, die für die formale wie auch für die thematische Erschliessung verwendet werden. In durch Bibliotheken geschaffenen Normdateien kommen nur diejenigen Begriffe und Namen vor, die für die Beschreibung von in Bibliotheken und anderen Dokumentationseinrichtungen vorhandenen Werken nötig sind (sog. «literary warrant»). Normdateien sind dementsprechend keine Thesauri, die ein ganzes Wissensgebiet abdecken. Im Folgenden werden in der Schweiz verbreitete und international wichtige bibliothekarische Normdateien vorgestellt. GND Die Gemeinsame Normdatei (GND) ist eine Normdatei für Die Mitarbeit in der Personennamen/Namen von Personen, Körperschaften, Konferenzen, GND erfolgt entweder über Verbünde, die Geografika, Sachschlagworte und Werktitel, die vor allem der Schweizerische Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch Nationalbibliothek oder von Archiven, Museen, Projekten und in Webanwendungen genutzt nach direkter wird.32 Die Lobid GND bietet eine erweiterte Suche. Sie wird von der Absprache mit der Deutschen Deutschen Nationalbibliothek, allen deutschsprachigen Nationalbibliothek. Auch Bibliotheksverbünden mit den angeschlossenen Bibliotheken und Geschichtsprojekte zahlreichen weiteren Einrichtungen gemeinschaftlich geführt. (z.B. HLS) können – Die einzelnen Entitäten können mittels des Teilbestandkennzeichens nach einer separat abgefragt werden. entsprechenden Schulung – selbst neue Einträge für Personen in Die den Normdatensätzen zugrunde liegenden Regelwerke sind zum der GND erstellen. einen die «Resource Description and Access» 2"RDA) für die Entitäten, 32 , Stand: 18.03.2022. 26 die für die Formal- und Inhaltserschliessung genutzt werden, wie beispielsweise Personen und Körperschaften. Zum anderen definieren die «Regeln für den Schlagwortkatalog»!2"!RSWK) die Erstellung der Normdatensätze für diejenigen Entitäten, die ausschliesslich von der Inhaltserschliessung genutzt werden, wie beispielsweise Sachbegriffe. Die GND-Normdaten stehen allen Interessenten in den Formaten MARC 21 Authority, MARCXML und RDFxml über verschiedene Bezugswege kostenfrei unter CC0 1.0 zur Verfügung. Für die Erfassung eines neuen Begriffs gibt es Minimalkriterien, damit eine eindeutige Identifizierung gewährleistet werden kann. Bei Personennamen beispielsweise sind dies die Namensform und entweder das charakteristische Betätigungsfeld oder die Lebensdaten. Die einzelnen Datensätze können aber beliebig mit strukturierten und innerhalb der GND verlinkten Informationen ausgebaut werden, vgl. z.B. Albert Einstein oder Wilhelm Tell. RAMEAU RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié) ist eine Sacherschliessungssprache. Die Dokumentationsform wird in Frankreich von der Bibliothèque nationale de France, den Universitätsbibliotheken, zahlreichen öffentlichen Lese- und Forschungsbibliotheken sowie mehreren privaten Organisationen verwendet. Beispiele in RAMEAU: Albert Einstein, Wilhelm Tell. LCSH Die Normdatei Library of Congress Subject Headings (LCSH) wird von Neueingaben und der Library of Congress in Washington gepflegt. Sie wird für die Änderungen des LCSH können nur via eines inhaltliche Erschliessung von Bibliotheksbeständen im «proposals» an die englischsprachigen Raum verwendet. Policy and Standards Division (PSD) beantragt werden. Beispiel in LCSH: Albert Einstein. MACS Das Projekt Multilingual Access to Subjects (MACS) hatte die Erstellung Es gibt nur eines multilingualen Recherchevokabulars auf Normdatenebene zum Verknüpfungen für Sachschlagworte. 27 Ziel.33 Aktuell sind Sachschlagworte der GND, RAMEAU und Library of Die Mappings sind als Congress Subject Headings verknüpft und in der GND abfragbar. Zurzeit Linked Data frei zugänglich. werden in der GND keine neuen Links erstellt. Das Projekt wird nicht mehr weitergeführt. GND-Mul Die Deutsche Nationalbibliothek ist die Initiatorin des Projekts «GND mul». Ziel ist es, die GND sowohl mit anderssprachigen Normdateien als auch mit Fachthesauri zu verknüpfen. Das datenstrukturgebende Grundlagenprojekt soll eine Referenz für alle Arten von Crosskonkordanzen zur GND bieten. Normdaten für einzelne Entitäten (Autoritätsfiles) Personen ULAN Das Getty Research Institute stellt ihre Datenbank mit Künstler:innen frei zur Verfügung: Getty Union List of Artist Names (ULAN). GND In der GND sind viele Namen von Personen (Autor:innen, historische Die GND, die bei Persönlichkeiten) bereits erfasst. Namen von Personen sehr stark ist, hat Die GND verzeichnet Personen aus der ganzen Welt und aus sämtlichen gerade bei dieser Sprachregionen. Sie beschränkt sich nicht auf Personen aus dem Entität einige Dubletten. deutschsprachigen Raum. Je nach Verwendung der Daten lohnt sich die Einschränkung auf die Katalogisierungslevel Tp3 oder Tp1. ISNI (International Standard Name Identifier) ISNI ist ein Metastandard. ISNI wird von der ISNI International Agency Ltd betrieben. INSI alimentiert sich zum einen aus bestehenden Identifikator-Systemen und andererseits aus den verschiedenen ISNI- Agenturen. Personennormdaten stammen zurzeit aus 52 Quellen, unter anderem aus der GND. Die ISNI dient der weltweit eindeutigen Identifizierung von Urheber:innen und allen Akteur:innen 33 o.A.: MACS. Multilingual Access to Subjects, in: DNB, 30.07.2020, , Stand: 21.12.2021. 28 (Wissenschaftler:innen, Erfinder:innen, Künstler:innen, Grafiker:innen, Interpret:innen, Produzent:innen, Verleger:innen, Übersetzer:innen etc.), die an der Veröffentlichung eines Werkes beteiligt sind. Auch Organisationen, Gruppen und Körperschaften können eine ISNI erhalten. Namensvarianten werden auch erfasst. Für die Vergabe von ISNI in der Schweiz ist MVB zuständig (https://german-isbn.de/isni/die-isni). ORCID (Open Researcher and Contributor ID) ORCID verknüpft die Identität von Wissenschaftler:innen mit ihren Werken. Mit ORCID können Dokumente und Datensätze nicht nur mit Namen, sondern einem Identifikator verbunden werden, der einer Person zugeschrieben wird. ORCID eignet sich nicht für die Identifikation von historischen Personen. data.bnf.fr Data.bnf.fr!$&*!%$+%!#;*%+);+>?!5%9A.%!0$%!#;*%+!0%'!/$)9$8*.ba1%! +;*$8+;9%!0%!D';+A%!2/+D3!-$*!X$9:%!G8+!I%A.+898($%+!0%&!F%-;+*$A!=%)! 2"H#D3!:C0%'$%'*?!1-!$.'%!=$%0%'G%'5%+01+(!01'A.!#'$**%!41!%'9%$A.*%'+E! #;!%&!&$A.!1-!0$%!#;*%+!%$+%'!/$)9$8*.%>!.;+0%9*?!&$+0!0$%!-%$&*%+! '%($&*'$%'*%+!U%'&8+%+!<1*8'Z$++%+?!:O'!0$%!%$+!)$)9$8(';:$&A.%'!T$+*';(! G8'.;+0%+!$&*E!R$+>&!41!%M*%'+%+!H%&&81'A%+!25$%!"!VIAF oder wikidata) werden ebenfalls gemacht. Vernetzungsdienste für Personen VIAF In dem Projekt Virtual International Authority File (VIAF) werden die GND Um eine VIAF-Nummer und andere Normdateien mit Personennamen über eine Konkordanz zu zu erhalten, muss die Entität immer in einer einer virtuellen internationalen Normdatei verbunden. VIAF selbst ist der beteiligten keine Normdatei, es können keine Autoritätsdatensätze in der VIAF nationalen Normdateien erfasst werden. erfasst sein. Die Daten werden online angeboten und stehen für Recherchen, den Datenaustausch und die gemeinsame Datennutzung zur Verfügung. Zur Referenzierung erhält ein VIAF-Datensatz eine eigene Normdatennummer als Identifikator, aus der eine Form als URI für Linked-Data-Anwendungen hervorgeht. Beispiel in VIAF: Albert Einstein. 29 Metagrid Der Webservice Metagrid ermöglicht die Einrichtung, Verwaltung und Der Webservice leistet Analyse von Links zwischen identischen Personen verschiedener einen wichtigen Beitrag bei der Suche nach Websites und Datenbanken.34 Metagrid ist keine Normdatei. Dank der relevanten historischen Metagrid-Suche können gespeicherte Konkordanzen zu Personen aus Informationen zu den an Metagrid beteiligten Datenbanken durchsucht werden. Personen, die oftmals Metagrid ist insbesondere von Vorteil, wenn für Personen keine GND keine GND haben. Einträge existieren. Der Austausch erfolgt nicht hierarchisch, sondern föderal. Jemand möchte wissen, auf welchen Websites (angeschlossener Institutionen) Informationen zu einer bestimmten, identifizierten historischen Person zu finden sind. Beispiel: Friedrich Traugott Wahlen bei Metagrid, damit verknüpft (Auswahl) Diplomatische Dokumente der Schweiz, Historisches Lexikon der Schweiz, BSG, Archiv für Agrargeschichte. Körperschaften/Organisation/Institutionen Bisher existiert unseres Wissens noch keine umfassende Zusammenstellung von historischen Körperschaften, Organisationen und Institutionen und deren Funktionen. GND In der GND sind verschiedene Namen von Körperschaften erfasst. In der GND wird zum Teil nicht zwischen Körperschaft und Ort unterschieden. Orte Getty Thesaurus of Geographic Names Der Thesaurus of Geographic Names (TGN) ist eine Datenbank von Der TGN ist eine ausgesprochen grosse circa 1’000’000 Bezeichnungen für rund 900’000 Orte. Er wird vom Getty Sammlung, jedoch nach Research Institute herausgegeben. unterschiedlichen Der Thesaurus deckt die gesamte Welt in aktuellen und historischen, Bedürfnissen und daher nicht immer konsequent sowohl in geophysischen als auch geopolitischen Hierarchien ab. Neben strukturiert. den Bezeichnungen werden Koordinaten, Ortstypen, Ortsbeschreibungen und weitere Informationen gespeichert. Seit 2014 wird der Thesaurus als Linked Open Data bereitgestellt. 34 , Stand: 23.12.2021. 30 Geonames Geonames ist eine Datenbank zur Identifizierung und Referenzierung Geonames verfügt nur über eine flache geografischer Entitäten. Unterschiedliche Personen aus verschiedenen Ortstypologie Ländern stellen ihr Wissen Geonames zur Verfügung. (Buchstabencodes). GND In der GND sind Namen von Geografika verfügbar. Die hierarchischen Die Namen der Beziehungen für die Geografika sind nicht durchgehend erfasst. Auch Geografika sind in der GND mit dem fehlen bei historischen Orten häufig die Beziehungen zu den vorherigen Teilbestands- und nachfolgenden territorialen Entitäten. kennzeichen Tg1 gekennzeichnet und können entsprechend extrahiert werden. Teilweise wird nicht zwischen Körperschaft (Bürgergemeinde) und Ort unterschieden, weshalb die GND im Bereich Orte nur mit Vorsicht zu gebrauchen ist. Pleiades Pleiades ist ein gemeinschaftlich erstelltes Verzeichnis und ein Graph antiker Orte. Es veröffentlicht massgebliche Informationen über antike Orte und Räume und bietet Dienste zum Auffinden, Anzeigen und Wiederverwenden dieser Informationen unter einer offenen Lizenz.35 35 , Stand: 21.03.2022. 31 data.bnf.fr Unter den von Data.bnf.fr!;+(%)8*%+%+!H%&&81'A%+!2<1*8'Z$++%+?!=%'>%?! #;*%+?!<1::O.'1+(%+?!U%'$80$>;3!:$+0%+!&$A.!T$+*'K(%!41!P'*%+E!#$%!#;*%+! &*;--%+!;1&!"!RAMEAU und der Abteilung für Karten und Pläne. Neben Links zu den übrigen Daten von Data.bnf.fr findet man zusätzliche Informationen wie geografische Koordinaten. Ortsnamen.ch Das Portal der schweizerischen Ortsnamenforschung stellt Resultate der Mit Ortsnamen.ch schweizerischen Ortsnamenforschung der Öffentlichkeit zur Verfügung können Orts- und Flurnamen, die nicht auf und orientiert über den Stand der Namenforschung in der Schweiz. der Landeskarte In der Onlinedatenbank kann ein Ortsname gesucht und die Treffer auf verzeichnet sind, einer Karte angezeigt werden. Zu den einzelnen Treffern finden sich lokalisiert werden. weitere Informationen wie Mundart, Phonetik, Beschreibung des Orttyps, Kanton, Gemeinde, Ort, Teilgebiet, Quellenbelege, Koordinaten, Deutung etc. TOPOterm TOPOterm ist ein Webservice, der die Anreicherung von Suchabfragen Die Daten stehen als nach Ortsbezeichnungen durch historische Synonyme ermöglicht. Eine Opendata über Schnittstellen zur Suchabfrage führt entsprechend zu Treffern mit unterschiedlichen Verfügung. Schreibweisen. Überdies können über eine Suchmaske auch direkte Abfragen im Browser ausgeführt werden. SwissNAMES3D/swisstopo SwissNAMES3D ist eine Namensdatenbank der swisstopo. Sie enthält Mit SwissNAMES3D Namen von Ortschaften, Bergen, Flüssen und anderen Lokalitäten, die können Orte auf der Landeskarte lokalisiert auf den Schweizerischen Landeskarten im Massstab 1:25'000 (und werden. grösser) vermerkt sind. Daneben sind die Einträge gruppiert in unterschiedliche Ortstypen wie Berge, Ortschaften etc., so dass auch dieses Kriterium in der Suche eingeschränkt werden kann. Insgesamt umfasst die SwissNames-Datenbank georeferenzierte Einträge von mehr als 190’000 Lokalitäten. Zu jedem Eintrag gehören auch die genaue Position, Gemeinde, Kanton und – wo sinnvoll – auch Höhenangaben. Die Abfrage als Linked Open Data kann über einen SPARQL-Endpoint erfolgen, bspw. , Stand: 2103.2022.. 32 Konzepte (Schlagworte und Lemmata) GND Die GND beinhaltet zahlreiche Schlagworte/Sachbegriffe, die Die Mappings zu den abweichende Benennungen und Relationen zu quasi Synonymen und Schlagworten der LCSH und RAMEAU sowie zu verwandten Begriffen enthalten. Zudem gibt es Links zu den den DDC-Notationen äquivalenten Normdatensätzen der "!LCSH und "!RAMEAU wie auch zu sind als Linked Data frei zugänglich. den "DDC-Notationen. Eine eigene Systematik erlaubt einen systematischen Zugang auf die GND. Diese wird nach Bedarf erweitert bzw. erstellt, d.h. sie ist nicht allumfassend. Der Beruf Henker oder Nachrichter ist in der GND ein Synonym des Sachbegriffs Scharfrichter. In der Systematik gehört der Begriff zu 7.7b «Strafvollzug» und 9.4ab «Einzelne Berufe, Tätigkeiten, Funktionen; Religionszugehörigkeit, Weltanschauung». Ein thematischer Bezug wird mit dem Link zum Begriff «Hinrichtung» gegeben. Es wird zudem auf "!RAMEAU «Exécutions capitales et exécuteurs» verwiesen etc. 33 Klassifikationen Bibliotheken verwenden nebst der verbalen Sacherschliessung Klassifikationen, um einen thematischen Zugang zu den Beständen zu ermöglichen. Die Klassifikationen sind meist hierarchisch strukturiert, wobei die Relationen ausgewiesen werden. Die Mappings zwischen den DDC-Notation und DDC den GND- Die Dewey-Dezimalklassifikation (DDC) ist die international am weitesten Schlagworten sind als verbreitete Klassifikation für die inhaltliche Erschliessung von Linked Data frei Bibliotheksbeständen. Sie ist nicht frei zugänglich, sondern zugänglich. lizenzpflichtig. In der "GND gibt es Verlinkungen zwischen den Schlagworten und der entsprechenden DDC-Notation. UDK Die UDK wird bspw. Die Universal-Dezimalklassifikation beruht auf der "DDC. Sie wurde durch die ETH- Bibliothek verwendet. Ende des 19. Jahrhunderts in Belgien als Alternative zur amerikanisch- lastigen DDC entwickelt. Sie wird hauptsächlich in Bibliotheken ausserhalb des englischsprachigen Raums verwendet. Im universitären Bereich Regensburger Verbundklassifikation (RVK) in der Schweiz spielt die RVK keine wichtige Die Regensburger Verbundklassifikation (RVK) ist eine weitverbreitete Rolle. Klassifikation mit Anwendern in Deutschland, Österreich, Italien und der Schweiz. Sie ist ursprünglich als Aufstellungssystematik entwickelt worden, sie dient aber auch als Sacherschliessungsinstrument. Nachschlagewerke, Vokabulare, linguistische Standards und Wörterbücher Rechtshistorisches Vokabular Ausgehend von den Schlagworten der deutschsprachigen «Materien der Policeyordnungen»!%+*&*%.*!41'!`%$*!%$+!-%.'&J';A.$(%&?!-$*!"!SKOS erstelltes rechtshistorisches Vokabular. 34 CoNLL (Organisation linguistischer Daten) CoNLL ist eine jährliche Konferenz, die Shared Tasks (gemeinsame Probleme) bearbeitet. Die Form der Daten, die für diese Aufgaben vorgeschlagen werden, hat sich als Standard in der maschinellen Sprachverarbeitung (NLP) durchgesetzt. Jede Zeile steht für ein Token, dessen verschiedene linguistische Annotationen streng geordnet und durch Tabulatoren getrennt sind, die ebenso viele Spalten bilden: ID für die Position im Satz, FORM für das Token, LEMMA für das Lemma, POS für den Satzteil, FEAT für die Morphologie, HEAD für den syntaktischen Elternteil etc. Nullwerte werden durch einen Unterstrich (_) gekennzeichnet. Es gibt Empfehlungen für den Wert von Annotationen: Es gibt Standard-Etikettierungssätze und -Referenzsysteme, die jedoch von der annotierten Sprache abhängen können. Nationale Wörterbücher der Schweiz In der Schweiz werden folgende Wörterbücher im Auftrag der SAGW bearbeitet und online mit unterschiedlichen Suchfunktionen zur Verfügung gestellt: Deutsch: Schweizerdeutsches Wörterbuch oder Schweizerisches Idiotikon. Für Recherchen zur deutschen Sprache vgl. auch das Wörterbuchnetz. Französisch: Das Glossaire des patois de la Suisse romande (GPSR) lässt sich online durchsuchen. Für Recherchen zur französischen Sprache vgl. auch ATLIF und Lexilogos. Italienisch: Das Vocabolario dei dialetti della Svizzera italiana (VSI) wird seine Online-Version per Ende 2022-Anfang 2023 aufschalten. Romanisch: Das Dicziunari Rumantsch Grischun (DRG) dokumentiert die bündnerromanischen Sprachen seit dem 16. Jahrhundert und ist mit DRG-online durchsuchbar. Weitere Nachschlagewerke, aufgenommen durch die DNB: Liste der Nachschlagewerke der DNB 35 Datenformate METS/MODS (Metadata Encoding and Transmission Standard, Metadata Object Description) Der Metadata Encoding & Transmission Standard (METS) ist ein mit XML Schema definiertes XML-Format!41'!/%&A.'%$)1+(!G8+!0$($*;9%+! F;--91+(%+!G8+!P)V%>*%+!-$*!"!Metadaten. METS wird häufig in Kombination mit MODS (Metadata Object Description) verwendet, das ebenfalls von der Library of Congress als XML-Spezifikation verantwortet wird. Während in METS die technischen Metadaten und Pfade zu den Daten hinterlegt wird. Nutzt man MODS, um inhaltlicher/objektbezogene Metadaten zu kodieren. MARC21 Die MARC-Formate sind Standards für die Repräsentation und den Während der MARC- Tausch von Daten in maschinenlesbarer Form. Verantwortlich für die Standard definiert, welche Information in Pflege und Entwicklung von MARC 21 ist das Network Development and welchem Feld vermerkt MARC Standards Office (NDMSO), das vom MARC Advisory Committee wird, schreiben die unterstützt wird. Es steht auch eine XML-Variante des Formats zur Formalerschliessungsre Verfügung. In der Schweiz wird MARC21 von allen grossen Bibliotheken geln die Art, wie die Informationen in den verwendet. Feldern wiedergegeben Die Anwendung und die Definition der einzelnen Felder ist zu finden werden, vor. unter: http://www.loc.gov/marc/bibliographic/ Nachfolger von MARC21 ist BIBFRAME, dieses Format ist aber noch nicht eingeführt.36!T$+%!<9*%'+;*$G%!41!B, Stand: 22.12.2021. 36 DCMI Metadata Terms unterschieden. Das Erstere bezeichnet fünfzehn hierarchisieren und terms zur Beschreibung von Metadaten. Das Zweitere zielt darüber auffindbar zu machen. hinaus auf die Verknüpfung der terms mit Klassen und properties, Datentypen und Vokabularen. Die semantischen XML-Auszeichnungssprachen Auszeichnungen der Texte sind maschinenlesbar und interoperabel. ALTO XML ALTO XML (Analyzed Layout and Text Object) ist ein Standard zur Beschreibung von automatisch erkannten Textdaten, der häufig im Kontext von Optical Character Recognition genutzt wird.37 PageXML Page XML ist ein Standard zur Beschreibung von automatisch erkannten Textdaten, der häufig im Kontext von Optical Character Recognition genutzt wird. Page XML wird häufig zur Erstellung von Ground Truth (Trainingsmaterial für Texterkennsysteme) genutzt.38!6-!c%(%+&;*4!41! "ALTO XML erlaubt PageXML semantische Information stand-off zu annotieren.39 HTML HTML (Hypertext Markup Language) ist ein Markup (Auszeichnungssprache) für Webseiten, um deren Struktur zu definieren (z.B. Abschnitte, Titel etc.). HTML wird durch den Webbrowser dargestellt. HTML5 ist die neueste Version von HTML und bietet viele vordefinierte interaktive Elemente an. Das XHTML-Format (Extensible HyperText Markup Language) stellt eine HTML 4.01-kompatible XML- 37 , Stand: 21.03.2022. 38 , Stand: 21.03.2022. 39 , Stand: 21.03.2022. 37 Variante von Hypertext dar, die inzwischen angesichts von HTML5 an Bedeutung verloren hat. SIARD SIARD (Software Independent Archival of Relational Databases) ist ein Format zur Archivierung relationaler Datenbanken unabhängig von ihrem Management-System. SIARD kann Schemata, Relationen, Metadaten und den Inhalt von Datenbanken in XML abbilden. Da SIARD mit dem Standard SQL:2008 konform ist, kann es die meisten neueren Datenbanksysteme archivieren. Die Konformität mit XML und SQL:2008 Standards verspricht eine nachhaltige und interoperable Langzeitspeicherung von Datenbanken sowie optional einer breiten Palette zusätzlicher Informationen zu ihrem Nutzungskontext. Durch die kostenlose Software SIARD Suite ist sowohl das Archivieren von Datenbanken als auch das Überführen bereits archivierter Datensätze in neue Datenbankanwendungen einfach und userfreundlich möglich. TEI TEI (Text Encoding Initiative) ist ein Konsortium, das einen Standard zur elektronischen Codierung von Texten entwickelt hat. TEI bezeichnet auch eine Markup-Sprache bzw. eine Menge von Grammatiken (XML- Schemata), die kombiniert werden können, um eine solche zu definieren (hier als TEI/XML bezeichnet). Digitale Editionen, die mit TEI arbeiten, verwenden in der Regel ein TEI- Schema zur strukturierten Erfassung der archivischen Metadaten der Quellen sowie zur textkritischen und semantischen Auszeichnung der Primärdaten. Die Editions- und Transkriptionsrichtlinien müssen ausführlich dokumentiert werden. Im Umfeld der Text Encoding Initiative entwickeln sich eine Vielzahl von (Sub-)Initiativen, die sich am Standard orientieren oder diesen erweitern. Darunter fällt insbesondere correspsearch (, Stand: 21.03.2022), EpiDoc für Epigraphika (, Stand: 21.03.2022), TEI Lex-0 für Wörterbücher (, Stand: 21.03.2022), Vanilla TEI.40 CEI (Charters Encoding Initiative), die sich an die TEI anlehnt bzw. diese erweitert mit Auszeichnungen von Urkunden nach Vorgaben der Diplomatik (bspw. Auszeichnung von Arenga, Eschatokoll etc.). 40 TEI XML Vanilla ist ein neues «minimal Format», getragen durch den Verein e-editiones und auch in den TEI- Publisher integriert, siehe , Stand 21.03.2022. 38 MEI (Music Encoding Initiative) lehnt sich an den Vorgaben und der Logik von TEI an, ist aber eine speziell auf die Auszeichnung von Musik zugeschnittene XML-Auszeichnungssprache. Der TEI-Publisher ist auf die Publikation von TEI XML kodierten Dokumenten und die Indexierung in einer existDB ausgelegt. Der Publisher folgt dem Single-Source Publishing Ansatz, der aus einem Dokument unterschiedliche Ausprägungen herstellen kann. Eine Streichung in einem gedruckten oder handschriftlichen Text wird mit dem Tag ausgezeichnet. Für eine Maschine und einen Menschen wird somit klar, dass die von den Tags umfassten Zeichen gestrichen sind. EAD EAD (Encoded Archival Description) ist ein dokumentarischer XML- Standard zur Beschreibung von Archivalien und Findhilfen in Archiven, Museen und Bibliotheken, der von der Library of Congress herausgegeben wird.41 Ontologien OWL OWL (Web Ontology Language) ist eine Erweiterung von RDF zur Bildung komplexer Vokabulare und Ontologien (schliesst "RDFS ein). Die Notation basiert auf RDF. Durch Ontologien lässt sich eine Domäne (ihre Gegenstände und deren Beziehungen zueinander) formalisiert beschreiben. Bestehende Ontologien können wiederverwendet werden. SKOS SKOS (Simple Knowledge Organization Systems) ist eine standardisierte formale Sprache zur Ordnung von Wissen, beispielsweise in Form von Thesauri. 41 Einführung auf französisch: https://www.ead-bibliotheque.fr/ 39 CIDOC-CRM CIDOC-CRM (Conceptual Reference Model von CIDOC) ist eine Ontologie, die implizite und explizite Konzepte und Beziehungen von Institutionen modelliert, die das Kulturerbe bewahren und dokumentieren (z. B. Museen). Das Comité International pour la Documentation (CIDOC) ist ein internationales Komitee für Museumsdokumentation. Einzelne Fachgruppen erweitern CIDOC-CRM fachspezifisch, z.B. FRBR. Im Rahmen des Data for History Konsortium (http://dataforhistory.org/) werden auf die Bedürfnisse der Historiker:innen angepasste Version von CIDOC-CRM erarbeitet. DOLCE DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) ist eine Ontologie, die den menschlichen Diskurs modelliert. Ric-O RiC-O!2H%A8'0&!$+!\8+*%M*&NP+*898(Q3!$&*!%$+%!"!OWL-Ontologie zur Beschreibung von Archivbeständen und damit zusammenhängende Einheiten. Schema.org Initiative zur einheitlichen Strukturierung von Daten auf Webseiten nach einer von schema.org entwickelten Ontologie. Eine Ontologie, die auf Schema.org gehostet wird, ist friend-of-a-friend, um Beziehungen zwischen Personen auszudrücken. 3#/(-45"'6789:;<=>;, Stand: 21.03.2022. IIIF Das Image Interoperability Format (IIIF) wird gesteuert durch ein Konsortium und legt einen Standard zur Übernahme von Bilddaten, inklusive Metadaten fest.42 Pfad und Angaben zu Metadaten werden in sogenannten Manifesten bereitgestellt. Ziel von IIIF ist, dass Bilder, Bildteile, Audio, Video und Metadaten auf Seiten von Dritten eingebunden und weiterverwendet werden können, ohne dass eine Duplizierung der Bilddateien notwendig ist. 42 Siehe die Website: o.A.: International Image Interoperability Framework, o.D., , Stand: 23.12.2021. 41 e-codices präsentiert mittelalterliche und frühneuzeitliche Handschriften über einen eigenen IIIF-fähigen Viewer und publiziert alle Inhalte mit IIIF-Manifesten (Metadaten und Bilddateien). Distributed Text Services (DTS) DTS!$&*!%$+!&$A.!$+!T+*5$A>91+(!)%:$+0%+0%'!F*;+0;'0?!0%'!%$+%!FA.+$**&*%99%,"