turlututu

part-of-speech tagging et analyse morphologique du français avec spacy (morphologizer model).

le modèle est destiné à l'analyse de textes conversationnels et/ou narratifs (typiquement: des textes de fictions contenant des dialogues) contemporains dans lesquels les pronoms personnels et temps verbaux sont variés¹. pour ça, il a été entraîné sur un corpus de textes littéraires et de sciences humaines, ainsi que quelques textes très brefs rédigés de façon ad hoc, et d'extraits d'articles wikipedia. tous les textes ont été largement modifié, de larges portions ayant été retirées ou réécrites² (ou ajoutées).

restrictions

les données d'entraînement du modèle présentent quelques spécificités:

les seuls apostrophes présentes sont les apostrophes droites (').
le seule format d'écriture inclusive contractée est celui-ci: auteur·rices, parti·es, etc.
la morphological feature Gender est absente.

corpus

the wittgenstein project

ludwig wittgenstein, conférence sur l'éthique (1929)
ludwig wittgenstein, le cahier bleu et le cahier brun (trad. automatique avec deepl)

les classiques des sciences sociales

marcel mauss, les techniques du corps (1934)

wikipedia

article donnée
article logiciel libre
article copier-coller
article commun
extraits de l'article football et lois du jeu

wikisource

simone weil, la condition ouvrière (1951, rédaction en 1934-1937)
jack london, l'appel de la forêt (1903, trad. 1908)
jack london, lettre au juge samuel (1910)
léon tolstoi, qu'est-ce que l'art (1898, trad. 1918)
marcel mauss, la sociologie: objet et méthode (1971)
george sand, françois le champi (1853)
balzac, le père goriot (1855)

framabook³

pouhiou, smartarted (2012)
stephane crozat, traces (2018)

substitution

dans certains de ces textes⁴, certains mots sont répétés inlassablement, tandis que de nombreux mots sont (évidemment) absents du corpus. or, il m'a semblé inutile que le modèle voie (par exemple) le mot champi 146 fois (car il y a françois le champi, de george sand, dans mon corpus), 53 fois le mot moulin (idem), 58 fois le mot pensionnaires (dans le père goriot), 168 fois jeune ou 85 fois libre. autant remplacer ces mots par d'autres qui possèdent les mêmes caractéristiques morphologiques: remplacer l'adjectif libres par vacantes, libertaires ou aériennes.

pour ce faire, j'ai construit quelques listes de mots (disponibles dans le dossier mots):

une liste de noms propres, celles des noms du crew de la série dark crystal, récupérée sur imdb et de laquelle j'ai retranché les noms qui étaient des mots français.
une liste de mots désignant des objets matériels qu'on peut trouver dans une maison, récupérés dans des textes de george perec: notes sur les objets qui se trouvent sur ma table de travail et les trois premiers chapitres de la vie mode d'emploi.
liste d'interjection et d'onomatopées, reprise d'un document présentant les conventions de transcriptions d'un corpus oral: le Corpus du Français Parlé de nos Régions⁵.
liste de concepts-activités, obtenue en posant à chatgpt la question suivante: la nature, l'art, la vie, la littérature, ... (continue autant que tu peux). le début de sa réponse: la musique, la science, la philosophie, l'amour, la poésie, l'histoire, la cuisine, la danse, [...]
liste de noms de métiers (issue de wikipedia).
deux listes d'adjectifs, l'une pour les personnes (les choses animées) et l'autres pour les choses (inanimées)⁶.

si certains mots (les noms propres originaux, tous remplacé par Dominique pour faciliter la l'annotation) ont été remplacé avant même l'annotation, d'autres l'ont été après: la colonne Misc (la dernière) des fichiers .conllu contient des labels utilisés pour remplacés ces mots (organisés en catégorie) et présentes le mot originalement présents (afin qu'il puisse être restauré si besoin):

25	cafétéria	_	NOUN  ...  Number=Sing  ...  noun.lieu=fontaine

la motivation à entraîner ce modèle vient du fait que les modèles proposés par spacy pour le français (2024-07-21) sont entraînés sur un corpus journalistique. or, ces types de textes sont tout à fait particuliers et ne contiennent souvent ni la seconde personne du singulier (aucune occurrence du mot tu dans le corpus ud french-sequoia), et les seuls verbes au mode impératif sont conjugué à la seconde personne du pluriel (à une seule exception: Revenons). ↩
l'une des modification a consisté à intégrer des formes d'écritures inclusive: formes contractées (auteur·rices, entraîné·es, etc.) et pronoms inclusifs et/ou non-binaires (iel, celleux, etc.). ↩
romans contemporains sous license art libre (compatible avec CC SA). ↩
le temps nécessaire à l'annotation est naturellement la raison du nombre limité de textes: ils sont peu nombreux. ↩
La liste ici présente contient quelques mots en plus (heu, ha, ...), d'autres en moins (oui, ouais). ↩
la liste pour les choses est essentiellement composé d'adjectifs à usage esthétique. par exemple: merveilleux·euse, joli·e, fantastique. il s'agit moins d'adjectifs exprimant strictement la valeur esthétique d'une chose que d'adjectifs pouvant être substitués aux mots beau·elle, joli·e: quelle jolie maison, quelle fantastique maison. ↩

thjbdvlt / turlututu Goto Github PK

turlututu's Introduction

turlututu

restrictions

corpus

the wittgenstein project

les classiques des sciences sociales

wikipedia

wikisource

framabook³

substitution

turlututu's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

thjbdvlt / turlututu Goto Github PK

turlututu's Introduction

turlututu

restrictions

corpus

the wittgenstein project

les classiques des sciences sociales

wikipedia

wikisource

framabook3

substitution

Footnotes

turlututu's People

Contributors

Watchers

Recommend Projects

Recommend Topics

Recommend Org

framabook³