Git Product home page Git Product logo

turlututu's Introduction

turlututu

part-of-speech tagging et analyse morphologique du français avec spacy (morphologizer model).

le modèle est destiné à l'analyse de textes conversationnels et/ou narratifs (typiquement: des textes de fictions contenant des dialogues) contemporains dans lesquels les pronoms personnels et temps verbaux sont variés1. pour ça, il a été entraîné sur un corpus de textes littéraires et de sciences humaines, ainsi que quelques textes très brefs rédigés de façon ad hoc, et d'extraits d'articles wikipedia. tous les textes ont été largement modifié, de larges portions ayant été retirées ou réécrites2 (ou ajoutées).

restrictions

les données d'entraînement du modèle présentent quelques spécificités:

  • les seuls apostrophes présentes sont les apostrophes droites (').
  • le seule format d'écriture inclusive contractée est celui-ci: auteur·rices, parti·es, etc.
  • la morphological feature Gender est absente.

corpus

the wittgenstein project

les classiques des sciences sociales

wikipedia

wikisource

framabook3

substitution

dans certains de ces textes4, certains mots sont répétés inlassablement, tandis que de nombreux mots sont (évidemment) absents du corpus. or, il m'a semblé inutile que le modèle voie (par exemple) le mot champi 146 fois (car il y a françois le champi, de george sand, dans mon corpus), 53 fois le mot moulin (idem), 58 fois le mot pensionnaires (dans le père goriot), 168 fois jeune ou 85 fois libre. autant remplacer ces mots par d'autres qui possèdent les mêmes caractéristiques morphologiques: remplacer l'adjectif libres par vacantes, libertaires ou aériennes.

pour ce faire, j'ai construit quelques listes de mots (disponibles dans le dossier mots):

  • une liste de noms propres, celles des noms du crew de la série dark crystal, récupérée sur imdb et de laquelle j'ai retranché les noms qui étaient des mots français.
  • une liste de mots désignant des objets matériels qu'on peut trouver dans une maison, récupérés dans des textes de george perec: notes sur les objets qui se trouvent sur ma table de travail et les trois premiers chapitres de la vie mode d'emploi.
  • liste d'interjection et d'onomatopées, reprise d'un document présentant les conventions de transcriptions d'un corpus oral: le Corpus du Français Parlé de nos Régions5.
  • liste de concepts-activités, obtenue en posant à chatgpt la question suivante: la nature, l'art, la vie, la littérature, ... (continue autant que tu peux). le début de sa réponse: la musique, la science, la philosophie, l'amour, la poésie, l'histoire, la cuisine, la danse, [...]
  • liste de noms de métiers (issue de wikipedia).
  • deux listes d'adjectifs, l'une pour les personnes (les choses animées) et l'autres pour les choses (inanimées)6.

si certains mots (les noms propres originaux, tous remplacé par Dominique pour faciliter la l'annotation) ont été remplacé avant même l'annotation, d'autres l'ont été après: la colonne Misc (la dernière) des fichiers .conllu contient des labels utilisés pour remplacés ces mots (organisés en catégorie) et présentes le mot originalement présents (afin qu'il puisse être restauré si besoin):

25	cafétéria	_	NOUN  ...  Number=Sing  ...  noun.lieu=fontaine

Footnotes

  1. la motivation à entraîner ce modèle vient du fait que les modèles proposés par spacy pour le français (2024-07-21) sont entraînés sur un corpus journalistique. or, ces types de textes sont tout à fait particuliers et ne contiennent souvent ni la seconde personne du singulier (aucune occurrence du mot tu dans le corpus ud french-sequoia), et les seuls verbes au mode impératif sont conjugué à la seconde personne du pluriel (à une seule exception: Revenons).

  2. l'une des modification a consisté à intégrer des formes d'écritures inclusive: formes contractées (auteur·rices, entraîné·es, etc.) et pronoms inclusifs et/ou non-binaires (iel, celleux, etc.).

  3. romans contemporains sous license art libre (compatible avec CC SA).

  4. le temps nécessaire à l'annotation est naturellement la raison du nombre limité de textes: ils sont peu nombreux.

  5. La liste ici présente contient quelques mots en plus (heu, ha, ...), d'autres en moins (oui, ouais).

  6. la liste pour les choses est essentiellement composé d'adjectifs à usage esthétique. par exemple: merveilleux·euse, joli·e, fantastique. il s'agit moins d'adjectifs exprimant strictement la valeur esthétique d'une chose que d'adjectifs pouvant être substitués aux mots beau·elle, joli·e: quelle jolie maison, quelle fantastique maison.

turlututu's People

Contributors

thjbdvlt avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.