Bitte bei Gelegenheit mal die Leerzeilen aus der Tabelle nehmen. Und es wäre super, wenn auch der Textumfang in Tokens genannt werden könnte (das müsste aber aus den "plain text"-Dateien gezogen werden). Ein einfacher, aber recht gut geeigneter Regex für die Tokenisierung dabei ist "\W+".
The repo mixes data and code, which is not a good practice. Maybe split it up?
Apart from missing a proper license file, the license section in the README just talks about the data (texts) and not about the contained code.
Erstes Ziel wäre es ,, die 4-5 Romane für den Pilot in XML-TEI nach ELTeC (und davon abgeleitet als "plain text") zu haben. Die 30 Romane, die wir aus dem Double Keying vorliegen haben, sind bereits in XML-TEI nach ELTeC gewandelt. Damit könnte man nun ein Topic Modeling ernsthaft ausprobieren.
Für die Extraktion des "plain text" aus ELTeC-Texten habe ich ein Skript geschrieben, das a) ein paar Parameter kennt und b) auch eine "Modernisierung" mit Suchen/Ersetzen enthält. Da wäre eine sinnvolle Liste von Korrekturen aber noch zu ermitteln.
Das Etablieren dieser Liste stelle ich mir so vor: man macht mit Python ein "spell-check" auf den XML-Dateien und ermittelt so alle Wörter, die nicht korrekt geschrieben sind. Hier ein Beispiel für so einen spell-checker: https://cligs.hypotheses.org/371
Diese Liste ordnet man nach Häufigkeit, löscht die Personennamen und die "Einzelfälle". Die resultierende Liste schreibt man im Format "saurait=saurait" (doppelt) in eine Textdatei, mit einem Wort pro Zeile. Dann geht man durch die Datei und korrigiert jeweils die zweite Nennung des Wortes ins moderne Französisch. Das könnten PG und JV gut gemeinsam machen: PG programmiert, JV erstellt die Liste.
Das Python-Skript liegt hier, es sind die drei Dateien "tei2txt...": https://github.com/MiMoText/roman-dixhuit/tree/master/Python-Scripts.
Die Datei "tei2txt_mods.csv" enthält ein paar Beispieleinträge für diese Modernisierung. Da müssten alle die Wortpaare rein.
Quick question: some of the sourceDesc's in the TEI files appear to be missing (or consist only of a link, e.g. https://www.frantext.fr/), are generic ("wikisource"), or incomplete ("txtLAB450 / McGill University"). Is this still ongoing work? And are there (will there be) complete versions available? Thanks!