Git Product home page Git Product logo

roman18's People

Contributors

amelieprobst avatar baitu avatar ben-tinc avatar christofs avatar jokons avatar juliadudar avatar kleean avatar roettger avatar sarahondraszek avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

roman18's Issues

Metadaten-Tabelle

Bitte bei Gelegenheit mal die Leerzeilen aus der Tabelle nehmen. Und es wäre super, wenn auch der Textumfang in Tokens genannt werden könnte (das müsste aber aus den "plain text"-Dateien gezogen werden). Ein einfacher, aber recht gut geeigneter Regex für die Tokenisierung dabei ist "\W+".

License issue

The repo mixes data and code, which is not a good practice. Maybe split it up?
Apart from missing a proper license file, the license section in the README just talks about the data (texts) and not about the contained code.

Structure of repository

The structure is somewhat confusing and not self-explanatory. Maybe it could be improved and better documented?

Normalisation/modernisation script

Erstes Ziel wäre es ,, die 4-5 Romane für den Pilot in XML-TEI nach ELTeC (und davon abgeleitet als "plain text") zu haben. Die 30 Romane, die wir aus dem Double Keying vorliegen haben, sind bereits in XML-TEI nach ELTeC gewandelt. Damit könnte man nun ein Topic Modeling ernsthaft ausprobieren.
Für die Extraktion des "plain text" aus ELTeC-Texten habe ich ein Skript geschrieben, das a) ein paar Parameter kennt und b) auch eine "Modernisierung" mit Suchen/Ersetzen enthält. Da wäre eine sinnvolle Liste von Korrekturen aber noch zu ermitteln.
Das Etablieren dieser Liste stelle ich mir so vor: man macht mit Python ein "spell-check" auf den XML-Dateien und ermittelt so alle Wörter, die nicht korrekt geschrieben sind. Hier ein Beispiel für so einen spell-checker: https://cligs.hypotheses.org/371
Diese Liste ordnet man nach Häufigkeit, löscht die Personennamen und die "Einzelfälle". Die resultierende Liste schreibt man im Format "saurait=saurait" (doppelt) in eine Textdatei, mit einem Wort pro Zeile. Dann geht man durch die Datei und korrigiert jeweils die zweite Nennung des Wortes ins moderne Französisch. Das könnten PG und JV gut gemeinsam machen: PG programmiert, JV erstellt die Liste.
Das Python-Skript liegt hier, es sind die drei Dateien "tei2txt...": https://github.com/MiMoText/roman-dixhuit/tree/master/Python-Scripts.
Die Datei "tei2txt_mods.csv" enthält ein paar Beispieleinträge für diese Modernisierung. Da müssten alle die Wortpaare rein.

sourceDesc missing or incomplete

Quick question: some of the sourceDesc's in the TEI files appear to be missing (or consist only of a link, e.g. https://www.frantext.fr/), are generic ("wikisource"), or incomplete ("txtLAB450 / McGill University"). Is this still ongoing work? And are there (will there be) complete versions available? Thanks!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.