Dieses Readme wird automatisch generiert; README bearbeiten

Papyri Wörterlisten – Data

Dieses Repositorium enthält die Ausgangsdaten der Papyri-Wörterlisten (vgl. WL.pdf bzw. WL.html; Webanwendung verfügbar unter https://papyri.uni-koeln.de/papyri-woerterlisten).

Über die Daten

Prof. Dr. D. Hagedorn erstellt seit 1996 (unter anfänglicher Mithilfe von Pia Breit, Wolfgang Habermann, Ursula Hagedorn, Bärbel Kramer, Gertrud Marohn und Jörn Salewski; seit 2017 in Zusammenarbeit mit Klaus Maresch) Wörterlisten aus den Registern von Publikationen griechischer und lateinischer dokumentarischer Papyri und Ostraka. Zur Verwendung kam dafür eine selbst entwickelte HyperCard-Anwendung, die mit der Zeit auch parallel in FileMaker gepflegt wurde. Dieses Repositorium umfasst einen Transformations-Workflow ab FileMaker-XML-Exporten sowie die daraus resultierenden Wörterlisten-Dateien in TEI-XML.

Datenumfang

Die Wörterlisten umfassen 35071 Einträge, wovon 32843 in griechischer und 2228 in lateinischer Sprache (Stand 30. September 2020, '24. Fassung). Die Verteilung auf die Kategorien ist nachstehend illustriert.

Sprachübergreifend

general:      |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||15835
geography:    ||||||||||||||||||||||4419
monthsDays:   120
persons:      |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||14259
religion:     ||438

Griechisch

general:      |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||14359
geography:    |||||||||||||||||||||4352
monthsDays:   98
persons:      ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||13607
religion:     ||427

Lateinisch

monthsDays:   22
persons:      |||652
geography:    67
religion:     11
general:      |||||||1476
            
| = 200 Einträge

Datentransformation

Import-Pipeline

Kurzanleitung

Versions- und Literaturangaben aktualisieren (meta/literature.xml, meta/versions.xml, meta/editors.xml)
FileMaker-XML-Dateien in das Verzeichnis staging/input speichern.
conversion.xpl ausführen
Reporting auswerten bzw. Dateien in staging/output mit den bisherigen Dateien vergleichen (current)
Dateien in current durch Dateien in staging/output ersetzen
git commit bzw. Pull-Request erstellen
Version taggen bzw. Release erstellen

Ausführliche Anleitung

Vor jeder Datenübernahme sind die Meta-Dateien literature.xml, versions.xml und ggf. editors.xml zu aktualisieren bzw. ergänzen.

Der eigentliche Abgleich ist als XProc-Pipeline angelegt. Innerhalb der Pipeline werden verschiedene XSL-Transformationen ausgeführt und die einzelnen Einträge schließlich als Einzeldateien ins Output-Verzeichnis geschrieben. Die Transformationsschritte umfassen:

Überprüfung des Output-Verzeichnis
Duplikat-Check
Vereinigung der Importdateien
Strukturangleichung der Importdateien
Erstellung der TEI-Struktur mit Übernahme bestehender Identifikatoren
Vergabe neuer Identifikatoren für neue Einträge (sprachweise)
Aufbau des Metadaten-Abschnitts (teiHeader) inkl. Übernahme der Metadaten zu früheren Bearbeitungsschritten
Ausgabe von Behelfsdateien für die Webanwendung
Ausgabe einer aktuellen README-Datei

Die XProc-Pipeline (staging/conversion.xpl) muss einmal angestossen werden, der Prozess läuft dann selbständig durch. Dieser Prozess kann sowohl in oXygen XML Editor (unter Nutzung des integrierten Calabash-Prozessors; vlg. Anleitung) oder auf der Kommandozeile erfolgen (ebenfalls unter Nutzung des Calabash-Prozessors oder eines anderen XProc-Prozessors.

Der Vorgang ist relativ speicherintensiv und dauert für einen Voll-Abgleich je nach System/Konfiguration eine gute Stunde oder länger.

In der Datei staging/conversion.xpl lassen sich mehrere Parameter konfigurieren (direkt in der Datei oder im oXygen-XProc-Transformationsszenario im Tab Optionen):

Parameter	Beschreibung
`version`	Fassung; `Versionsnummer`, `Versionsname`, `Datum`, jeweils getrennt durch `¦` (`'21¦21. Version¦27.07.2017'`)
`editor`	Bearbeiter; z.B. als Github-Konto, Verweis auf eine `xml:id` oder als Klarnamen
`task-newEntries`	aktueller Bearbeitungsschritt für Neuaufnahmen (z.B. Auflistung der neuen Kurztitel); dieser wird als `<change>`-Element in die `<revisionDesc>` aufgenommen
`task-existingEntries`	aktueller Bearbeitungsschritt für bestehende Einträge; dieser wird als `<change>`-Element in die `<revisionDesc>` aufgenommen
`schemaPath`	Pfad zum Verzeichnis, welches das XML-Schema (`.rng-Datei`) enthält
`comparisonBase`	aktuelles Datenverzeichnis; die FileMaker-Exportdateien werden mit den in diesem Verzeichnis liegenden Dateien abgeglichen; für Workflow-Tests lässt sich hier ein weniger umfangreiches Verzeichnis angeben
`outputScenario`	hier lässt sich für Workflow-Tests mit `'oneFile'` die Ausgabe in einer Einzeldatei festlegen; jeder andere Wert führt zur Standardausgabe (eine Datei pro Eintrag)
`resultPath`	Pfad zum Verzeichnis, in welches die generierten Dateien geschrieben werden
`result-url`	bei der Generierung einer Einzeldatei kann der Dateinamen als Zusatz zu `resultPath` angegeben werden

Die Werte müssen mit umschließenden einfachen Anführungszeichen eingetragen werden.

Zum Duplikat-Check (Teil der Konversion)

Die Daten umfassen fünf unterschiedliche Kategorien. Jedes Lemma kann in einer bestimmten Schreibweise in jeder Kategorie nur einmal vorkommen.

Der Datenabgleich/Import verläuft nur erfolgreich bzw. die Datenkonversion wird erst angestoßen, wenn es innerhalb der Kategorien keine zeichen-identischen Lemmata gibt. Dieser Sachverhalt wird in einem der ersten Schritte der Pipeline überprüft. Dabei werden problematische Duplikate identifiziert und in einer Liste ausgegeben (Markdown-Format). Nach manueller Bereinigung der Duplikate kann die Konversion neu gestartet werden.

PWL-IDs

Jedem Lemma wird im Zuge der Datenübernahme eine sog. PWL-ID zugewiesen. Seit Juli 2019 basiert die Datenkonversion nicht mehr auf einem zeichenidentischen Lemma-Abgleich, sondern auf dieser ID.

Als Konsequenz daraus müssen neu zugewiesene PWL-IDs für jede neue Fassung/Version in FileMaker importiert werden. Die Konversionsroutine legt dazu im Verzeichnis output/return für jede Inputdatei eine um die IDs erweiterte Datei an, die sich in FileMaker importieren lässt.

Kontakt/Mitarbeit

Kontaktadresse: papyri-woerterlisten AT uni-koeln.de

Institut für Altertumskunde, Universität zu Köln, Albertus-Magnus-Platz, D-50923 Köln

Cologne Center for eHumanities, Universität zu Köln, Albertus-Magnus-Platz, D-50923 Köln

Daten und README zuletzt generiert am 30. September 2020 mit XML Calabash 1.1.30 (for Saxon 9.9.1.5/EE) von Norman Walsh und SAXON EE 9.9.1.5 von Saxonica (XSL 3.0).

pdaengeli / papyri-wl-data Goto Github PK

papyri-wl-data's Introduction

Papyri Wörterlisten – Data

Über die Daten

Datenumfang

Datentransformation

Import-Pipeline

Kurzanleitung

Ausführliche Anleitung

Zum Duplikat-Check (Teil der Konversion)

PWL-IDs

Kontakt/Mitarbeit

papyri-wl-data's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent