mimotext / roman18 Goto Github PK

Collection de romans français du dix-huitième siècle (1751-1800) / Collection of Eighteenth-Century French Novels (1751-1800)

Home Page: https://www.mimotext.uni-trier.de

License: MIT License

Python 4.57% HTML 95.43%

novels trier french enlightenment literature 18th-century corpus

roman18's People

Contributors

Stargazers

Watchers

Forkers

katharina-dietz jokons ben-tinc rankastankovic husseincopol laranugues andylehti

roman18's Issues

topic modeling (corpus "Pilot")

Bitte bei Gelegenheit mal die Leerzeilen aus der Tabelle nehmen. Und es wäre super, wenn auch der Textumfang in Tokens genannt werden könnte (das müsste aber aus den "plain text"-Dateien gezogen werden). Ein einfacher, aber recht gut geeigneter Regex für die Tokenisierung dabei ist "\W+".

NER (total corpus)

TEI to .txt ( corpus "Pilot")

Remove pycache from repo

The pycache folder holds artifacts that should not be published with the repo. Please remove it and add it .gitignore.

topic modeling (total corpus)

License issue

The repo mixes data and code, which is not a good practice. Maybe split it up?
Apart from missing a proper license file, the license section in the README just talks about the data (texts) and not about the contained code.

Structure of repository

The structure is somewhat confusing and not self-explanatory. Maybe it could be improved and better documented?

Convertion of 40 DoubleKeying-texts to TEI

EPUB to TEI (corpus "Pilot")

Normalisation/modernisation script

Erstes Ziel wäre es ,, die 4-5 Romane für den Pilot in XML-TEI nach ELTeC (und davon abgeleitet als "plain text") zu haben. Die 30 Romane, die wir aus dem Double Keying vorliegen haben, sind bereits in XML-TEI nach ELTeC gewandelt. Damit könnte man nun ein Topic Modeling ernsthaft ausprobieren.
Für die Extraktion des "plain text" aus ELTeC-Texten habe ich ein Skript geschrieben, das a) ein paar Parameter kennt und b) auch eine "Modernisierung" mit Suchen/Ersetzen enthält. Da wäre eine sinnvolle Liste von Korrekturen aber noch zu ermitteln.
Das Etablieren dieser Liste stelle ich mir so vor: man macht mit Python ein "spell-check" auf den XML-Dateien und ermittelt so alle Wörter, die nicht korrekt geschrieben sind. Hier ein Beispiel für so einen spell-checker: https://cligs.hypotheses.org/371
Diese Liste ordnet man nach Häufigkeit, löscht die Personennamen und die "Einzelfälle". Die resultierende Liste schreibt man im Format "saurait=saurait" (doppelt) in eine Textdatei, mit einem Wort pro Zeile. Dann geht man durch die Datei und korrigiert jeweils die zweite Nennung des Wortes ins moderne Französisch. Das könnten PG und JV gut gemeinsam machen: PG programmiert, JV erstellt die Liste.
Das Python-Skript liegt hier, es sind die drei Dateien "tei2txt...": https://github.com/MiMoText/roman-dixhuit/tree/master/Python-Scripts.
Die Datei "tei2txt_mods.csv" enthält ein paar Beispieleinträge für diese Modernisierung. Da müssten alle die Wortpaare rein.

EPUB to TEI (corpus "Description Double")

sourceDesc missing or incomplete

Quick question: some of the sourceDesc's in the TEI files appear to be missing (or consist only of a link, e.g. https://www.frantext.fr/), are generic ("wikisource"), or incomplete ("txtLAB450 / McGill University"). Is this still ongoing work? And are there (will there be) complete versions available? Thanks!

Modernisierung der Texte

Korrektur der Wörter auf der Suchen-Ersetzen-Liste:

https://docs.google.com/spreadsheets/d/1LWd3izG1DgMLMXHehx92672WVV4pWTnVdjpbAay4QZY/edit#gid=0

Durchgeführt durch die Hilfskräfte (erster Teil Julie Vignal); eventuell Kontrolle durch @roettger?