Git Product home page Git Product logo

cnrs-lacito / pangloss_website Goto Github PK

View Code? Open in Web Editor NEW
6.0 6.0 1.0 254.77 MB

Tools for the Pangloss Collection, an online archive of under-documented languages

Home Page: https://pangloss.cnrs.fr/

License: MIT License

HTML 31.93% CSS 8.11% PHP 4.74% XSLT 2.68% JavaScript 17.64% Perl 0.05% Batchfile 0.01% Roff 15.41% Hack 15.65% Python 0.01% Less 3.78%
language-documentation open-archives

pangloss_website's People

Contributors

alexis-michaud avatar sguillaume avatar tavalmayam avatar vasaura avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Forkers

minhchaunguyen

pangloss_website's Issues

pages HTML de présentation de certaines langues de DOREMIFA non accessibles

Je ne sais pas si c'est juste sur mon ordinateur : la présentation (ancienne page HTML statique, désormais cliquable en haut de page) de certaines des langues du projet DOREMIFA ne sont pas accessibles.
Exemple : langue Sach
http://lacito.vjf.cnrs.fr/pangloss/corpus/list_rsc_en.php?lg=S%C3%A1ch
Pareil pour le khmer
http://lacito.vjf.cnrs.fr/pangloss/corpus/list_rsc.php?lg=Cardamom%20Khmer

Les pages sont dans GitHub mais pas accessibles en ligne dans l'interface Pangloss.

D'autres langues sont OK, par exemple le khmu.

[DOREMIFA] màj pages de diverses langues

Aheu_en.php : supprimé 1 portion de texte en vietnamien que j'avais laissé par erreur (copier/coller malencontreux) dans une précédente version.

Toutes les langues vietiques, et le tai : ajouté une mention de la participation de MICA au travail, avec logos et liens

Corriger un lien sur la page d'accueil

Sur notre page d'accueil, francophone ou anglophone, la photo en haut à droite est cliquable, et renvoie vers la bonne URL: audio avec annotation. En revanche, le lien juste en-dessous (Chant de la pluie ...) ne contient pas l'annotation. Peux-tu corriger, en utilisant la même URL cible que la photo au-dessus? merci.

Attention de bien avoir une URL anglophone pour la version anglaise:
http://lacito.vjf.cnrs.fr/pangloss/corpus/show_text_en.php?id=crdo-MLV_AF030105_SOUND&idref=crdo-MLV_AF030105

dépôt de ressources naish (na et naxi)

6 documents son
dont 1 avec fichier EGG

4 fichiers annotation XML

Extrait des métadonnées : dans
METADATA_NAISH_depotfev2016.xlsx

Tout est dans un dossier "naish"
du transfert effectué le 1er février 2016.

Mise en ligne pages séparées pour langues austroasiatiques

Les langues du projet DO-RE-MI-FA regroupées ici doivent bénéficier chacune d'une page pour que les infos soient affichées à partir de chaque page corpus (même transition que pour les langues tai-kadai, lors de la migration vers la nouvelle interface en 2016).

Pour l'instant j'ai simplement reproduit la page "langues austroasiatiques" pour chacune des langues concernées. Sont à mettre en ligne 18 fichiers en tout :

Kháng.php
Kháng_en.php

Ksing_Mun.php
Ksing_Mun_en.php

Laven.php
Laven_en.php

Makong_dialect_of_Bru.php
Makong_dialect_of_Bru_en.php

Mảng.php
Mảng_en.php

Mon.php
Mon_en.php

Nyaheun.php
Nyaheun_en.php

Palaong.php
Palaong_en.php

Phay.php
Phay_en.php

Les fichiers ont été ajoutés dans GitHub, à l'emplacement habituel.

Mention "Chargement en cours / Loading in progress" pour pages "Ressources"

Cruel paradoxe : plus il y a de ressources pour une langue, plus on a l'impression qu'il y a zéro ressources !

Par exemple pour le japhug ou le na : on arrive ici
http://lacito.vjf.cnrs.fr/pangloss/corpus/list_rsc.php?lg=Na

et on commence par voir longuement une liste vide
image

et plus il y a de ressources dans la base de données, plus on reste longtemps devant une liste vide, sans indication qui signale que quelque chose est en cours. Plusieurs secondes : c'est suffisant pour que le visiteur de passage parte voir ailleurs :-(

Solution proposée hier par Rémy Bonnet : afficher une mention "Chargement en cours / Loading in progress" pendant que ça charge. Si possible avec 1 sorte d'animation qui bouge et signale que ça vaut le coup d'attendre ! Un truc rigolo serait d'avoir un affichage en temps réel du nombre de ressources trouvées. Avec un compteur qui commence à 2 et pas à zéro, pour ne pas désespérer le visiteur ! Tant que rien n'est trouvé : ne pas afficher "Found 0 resources"; et pour 1 y'a le problème du pluriel : "1 ressources", en anglais "1 resources", c'est moche). Actualisation toutes les secondes

"Requête en cours de traitement. 2 ressources trouvées..."
"Requête en cours de traitement. 7 ressources trouvées..."
"Requête en cours de traitement. 27 ressources trouvées..."
"Requête en cours de traitement. 66 ressources trouvées..."
"Requête en cours de traitement. 89 ressources trouvées..."

Ca rendrait l'attente passionnante (les compteurs c'est très tendance; "nous sommes des barbares qui tenons des décomptes de tout" disait chaipukel romantique allemand).
Et enfin, quand la liste est complète, le message superposé à la page internet disparaît.

En anglais:
"Processing query. Found 2 resources..."
"Processing query. Found 7 resources..."
etc.

Une autre solution consisterait à changer ce qui se passe quand on se rend sur la page en question : qu'au lieu d'une requête sur toute la base (qui prend nécessairement du temps) on utilise des données préparées à l'avance. Comme le nombre de langues n'est pas immense (<200), ça ne représenterait pas un espace disque immense de stocker quelque part la liste des ressources pour chaque langue, de façon à l'expédier rapidement au visiteur. Les listes seraient remises à jour à chaque fois que Pangloss "moissonne" les métadonnées de CoCoON (ce que tu @sguillaume fais après chaque dépôt, c'est bien ça?). Là ça engage une modification plus en profondeur.

On espère non seulement que le nombre de langues va croître, mais aussi que le nombre de dépôts par langue va grandir, y compris des accroissements spectaculaires (centaines de document). Cette modification apportée à l'interface permettrait de mieux accueillir les corpus substantiels (liste de dizaines/centaines de documents).

Mise à jour pages langues

18 éléments PHP en tout (9 langues x 2 versions: fra et eng).
Dans : GitHub\Pangloss\languages
Facile à retrouver en triant par date : les 18 éléments les plus récents (tout ce qui a été modifé en 2017).
Quand ce sera fait, fermer aussi le numéro #36
Merci :-)

annonce de la nouvelle interface : rassembler quelques idées

Hello,

En vue de l'annonce qui sera faite quand la nouvelle interface vous paraîtra prête à annoncer, où regrouper les idées de choses à mettre en avant ?

(points forts, nouveautés...)

  • la carte des ressources

  • tout est disponible au téléchargement. Maintenant c'est explicité par la présence d'un onglet "Téléchargements"
    image

  • .... (liste à continuer... on le fait sur cette page? ou ailleurs?)

Tutoriels Pangloss ?

Mon (Alexis) idée de départ était de collectionner tous les scripts qui fonctionnent maintenant (Perl, Python...), en expliquant ce qu'ils font et en les rendant disponibles en l'état. Ex.: scripts pour passer de FLEx vers Pangloss, de texte simple vers Pangloss, Toolbox <--> Pangloss...

Plus pratique pour les étudiants / débutants : fournir une méthode ("workflow") simple "par défaut", étape par étape, pour des étudiants qui n'ont pas le projet d'apprendre à modifier des scripts, seulement à les appliquer (en recopiant des instructions).

  • Du son vers la transcription : quel logiciel utiliser ? (Texte seul, Toolbox, ELAN ; conversion depuis Word pour certains...)

  • De la transcription au glosage (interlinéarisation / lemmatisation) : Toolbox ? Eastling version 2? (Kongloss??)

  • synchronisation texte-son : ajout des 'time codes': parfois en même temps que la transcription (ELAN, SayMore); pour certains, après coup (Toolbox suivi de SoundIndex)

  • conversion vers format Pangloss

  • versement à l'archivage

Dans l'idéal, quelqu'un qui ne sait pas scripter pourrait suivre les instructions pas à pas et créer des documents sans avoir besoin d'être aidé.

(notes prises par Alex & Alexis)

[DOREMIFA] coordonnées latitude/longitude manquantes pour diverses langues ?

Pour diverses langues dont les données khmer de Marie Alexandrine Martin
(exemple :
http://lacito.vjf.cnrs.fr/pangloss/corpus/show_text.php?id=crdo-KHM_CHANTHABURI_1_SOUND )
et le maleng bro
(exemple :
http://lacito.vjf.cnrs.fr/pangloss/corpus/show_text.php?id=crdo-PKT_MALENG_BRO_VOC1_SOUND )
il n'y a pas de carte qui s'affiche dans les métadonnées.

A mon souvenir, lat./long. était renseigné pour presque tous les enregistrements. Faut-il vérifier langue par langue?

Merci++

[DOREMIFA] parchemin pour les documents .txt

Pour quelques documents khmer et autres de Marie Alexandrine Martin, la présence d'un doc TEXTE fait afficher le parchemin alors que l'affichage ne correspond pas.
Si on peut corriger c'est super... Sinon ce serait pas un drame de virer les .txt de l'archive, et de les mettre en ligne depuis la page web, avec 1 lien...? C'est des bouts de fichiers de travail, rien de bien abouti et absolument pas irremplaçable.

Conversion de transcriptions de Flex vers DTD "Pangloss/Cocoon" pour langue pumi (prinmi)

Une collègue souhaite nous confier une très belle collection de données : langue pumi (prinmi).

Henriëtte Daudey (néerlandaise, comme son nom ne l'indique pas), qui mène des enquêtes de terrain depuis des années et fait du beau travail (https://sil.academia.edu/HenrietteDaudey)

Elle a des transcriptions et traductions soigneusement vérifiées (entre autres liens à cette langue, son mari est Pumi ! en fait son 'informateur'/consultant et elle se sont mariés et ils habitent sur place dans le Yunnan)

Elle a bien avancé dans la préparation des métadonnées. Restent les transcriptions. Je pense que ce serait bien qu'on rende disponibles les fichiers Flex (faudra regarder le format: export XML?? je n'utilise pas Flex).

Son message: "I am in the process of cleaning up the data for the Pangloss collection. I just downloaded the metadata sheet from LACITO. As you know, my database is located in Flex, so I will need some help figuring out how to upload the files at some point. As soon as I have put the metadata sheet together, I can send that to you for your reference."

Je la verrai peut-être dans le Yunnan le mois prochain.

DOI, liens permanents vers nos pages

bonjour,

Savons-nous comment obtenir des identifiants ARK / HDL / DOI etc. pour nos URL? Faut-il recontacter Nicolas Larrousse d'HumaNum à nouveau ? il faudrait bien lui faire comprendre qu'il ne s'agit pas de lier aux ressources média, mais aux annotations. (qui sont également une ressource). Ou bien faut-il contacter Mazyar Izadpanah de la Délégation ?

Un certain JL Archimbaud a préparé ces deux documents très utiles pour expliquer l'essentiel, y compris avec une explication de comment procéder, les coûts, etc:

On va peut-être trouver une solution pour nos pages?
(idéalement, une solution qui résolve aussi la question posée par Alexis dans une autre "issue": le lien direct vers une phrase <S> )

Cases à cocher/décocher dans l'interface : bouton "Word" inerte ?

Le 1er septembre, l'interface a été améliorée (merci @sguillaume) pour que l'affichage des gloses dans différentes langues (au niveau du mot/morphème) puisse être coché/décoché. Ainsi, pour les textes pumi traduits en chinois et en anglais, on peut choisir chinois, ou anglais, ou les deux (qui s'affichent alors sur des lignes séparées).

C'est une amélioration très bienvenue, surtout dans la perspective d'un enrichissement progressif des ressources.

Dans Chrome, le bouton/ boîte à cocher "Words" est inerte. La ligne des gloses par morphème (transcription) s'affiche (ce qui est bien) mais en décochant ça ne la fait pas disparaître.

(Dans Firefox j'ai des soucis mais c'est sans doute lié à mon installation de Firefox, qui est pourtant à jour mais a un comportement erratique.)

Balise title dans l'en-tête: générique ou spécifique ?

Quand je poste un texte Pangloss sur Facebook ou ailleurs, le titre qui apparaît est trop impersonnel (toujours le même titre générique quelle que soit la ressource):
Collection Pangloss - Ressource
Celui-ci correspond à la balise title dans l'en-tête du Html
<title>Collection Pangloss - Ressource</title>
(celle-ci se reflète également dans l'intitulé de l'onglet dans firefox, par exemple)
Serait-il possible que le titre de la page représente le contenu? (titre du texte, langue). Par exemple,
Collection Pangloss – L’homme Cordyline (mwotlap)
ou plus brièvement:
Pangloss – L’homme Cordyline (mwotlap)

Cela pourrait être possible, grâce au Php?

Peut-être faudra-t-il être attentif à la langue: si on a le choix entre titre anglais ou français, logiquement ceci correspondrait au choix de l'interface (angl/fr).
Merci

lien hypertexte direct vers 1 phrase (élément <S>) d'un texte de Pangloss ? pour livre de grammaire

Dans un livre électronique de grammaire, tel que le livre que je prépare (Tone in Yongning Na), peut-on fournir un lien hypertexte direct vers 1 phrase (élément <S>) d'un texte de Pangloss ?

Situation : c'est une grammaire, qui cite des exemples tirés des textes. Par exemple la phrase 53 du texte qui est en ligne ici.
http://lacito.vjf.cnrs.fr/pangloss/tools/show_text_en.php?id=crdo-NRU_MARIAGE_DE_LA_SOEUR_V1_SOUND&idref=crdo-NRU_Mariage_De_La_Soeur_V1

Si l'exemple était "cliquable", ce serait fabuleux : en lisant le livre électronique, si on est intéressé par un exemple, on clique sur un lien, et on accède à l'interface de consultation, et être directement calé sur la phrase en question.

Est-ce déjà faisable ? Envisageable pour plus tard ? Ou est-ce une question mal posée du fait que l'interface n'est pas pérenne ? Ca pourrait se faire via l'identifiant ark??

(Je ne sais pas quand je bouclerai l'ouvrage ; j'aimerais bien essayer de boucler cette année.)

Licences et copyrights

Pour les questions de licences et copyrights, il nous faut proposer aux déposants des solutions qui soient simples et claires, tout en étant assez diverses pour couvrir des situations très différentes d'un pays à l'autre, d'un lieu à l'autre, d'un type de document à l'autre.

Licences pour les outils logiciels:

A l'heure actuelle, le CNRS ni nos laboratoires de rattachement n'ont de politique de licence très précise. La tendance générale est à la mise à disposition en libre accès des résultats de la recherche publique. Pour "nos" outils, le choix nous revient.

Gilles Degottex, qui maintient le repositoire COVAREP, conseille de choisir entre les 3 solutions suivantes, des plus flexibles aux plus contraignantes:

A) Une licence comme BSD ou MIT, qui permet à l'utilisateur de faire tout ce qu'il veux avec le code. Par example, modifier le code sans rendre ses modifications publiques, puis inclure ce code dans un logiciel qui n'est pas open-source.

B) Licence LGPL: Toute modification du code doit être rendue publique. Par contre, c'est encore possible d'inclure ce code (modifié ou non) dans un logiciel dont le code n'est pas open-source (ex. le code de l'estimation d'Oq est open-source, mais le code de l'interface utilisateur ne l'est pas).

C) Licence GPL: Toute modification du code doit être rendue publique. De plus, tout logiciel qui utilise ce code doit être open-source.

Dans un cadre de recherche, nous encourageons à forcer l'utilisateur a rendre les modifications publiques (et donc les potentielles améliorations). Ce qui restreindrait le choix entre (B) et (C). Ensuite, nous conseillons la license LGPL (choix B), de façon à être "industry-friendly", en laissant la porte ouverte aux éventuelles commercialisations et donc à de potentiels partenariats.

Que diriez-vous d'utiliser une licence LGPL pour les outils du projet, et plus généralement les outils de Pangloss/CoCoON?

Licences pour les ressources: enregistrements, annotations, dictionnaires...

Trois licences sont proposées pour Pangloss/CoCoON:

Licence CreativeCommons BY-NC
Autorisation de :

  • Diffusion de la ressource
  • Modification de la ressource
    Obligation de :
  • Utilisation à des fins non commerciales
  • Citation de l'auteur

Licence CreativeCommons BY-NC-SA
Autorisation de :

  • Diffusion de la ressource
  • Modification de la ressource
    Obligation de :
  • Utilisation à des fins non commerciales
  • Citation de l'auteur
  • Diffusion de la ressource modifiée avec la même licence

Licence CreativeCommons BY-NC-ND
Autorisation de :

  • Diffusion de la ressource
    Obligation de :
  • Utilisation à des fins non commerciales
  • Citation de l'auteur

Moi je pense avoir systématiquement choisi BY-NC-SA. Que diriez-vous d'en faire la valeur par défaut? Après libre à chacun d'en utiliser une autre, mais ça épargnerait à chacun des déposants de passer du temps à se poser ces questions si on n'y porte pas d'intérêt particulier. De toute façon, à part qq cas extrêmes où ça finit devant les tribunaux, tout repose sur la bonne foi et la bonne volonté des gens: les plagiaires, faussaires et autres savent très bien ce qu'ils font et enfreignent les règles en connaissance de cause. Il faut juste souhaiter que ça ne nous arrive pas... ou du moins que les bénéfices de la mise en ligne dépassent ses inconvénients, ce dont pour ma part je suis pleinement convaincu.

[DOREMIFA] Page accueil PANGLOSS avec 1 modif

Cf version modifiée dans GitHub le 03/03 peu après minuit heure française

Corrigé la famille du phou noy : c'est du tibéto-birman et pas de l'austroasiatique

Ferlus s'est intéressé à bcp de langues ! et il est actuellement replongé dans cette langue sino-tibétaine.

(Il a aussi des données de hmông ; encore 1 autre famille... mais là on garde ça pudiquement sous silence parce que j'ai un peu envie de vivre ma vie à moi maintenant :-D et puis c'était ses premiers essais, vers 1965 ; rien de vraiment important à mon avis, pour le hmong il y a mieux ailleurs)

'hover-over' pour voir titre complet d'une ressource

Dans l'interface du bon vieux temps d'antan, on passait la souris sur un titre dans la liste des ressources pour une langue, et ça faisait apparaître le titre complet.

Pour le na c'est utile parce qu'il y a plusieurs versions d'une même histoire = avec le même titre, et à la fin une parenthèse qui dit "(version n)". (Pour n > 1. Pas d'indication veut dire : n=1.)

Exemple ici :
image

Le texte "Dog: How dog and man...", je ne sais pas quelle version c'est. Là je cherchais la version 2. (Je l'ai trouvée, t'inquiète pas :-D )
Pas urgent. Ce serait pour quand tu auras le temps: ça serait super d'avoir cette info supplémentaire qd on passe la souris sur le titre.

Affichage des métadonnées intégrales

Dans la nouvelle interface ça serait bien de rétablir l'icône "Informations" dans la liste de ressources, non? et aussi sur la page où s'affiche une ressource.
Là il y a qq métadonnées simplifiées mais pas la totalité. En particulier, les identifiants ark, oai...

[DOREMIFA-4, partie 2] dépôt de données de Michel Ferlus : dossier DOREMIFA_OnlineTransfer_Phunoi

Une langue sino-tibétaine parlée au LAOS !

Les pages web :
Phunoi_en.html
Phunoi.html
(à transformer en PHP, et vérifier... y'a un peu de boulot, je pense, hum hum)

Les fichiers son :
dans DOREMIFA_OnlineTransfer_Phunoi

Les métadonnées :
dans METADATA_PHUNOI.xlsx

(Les annotations : ça sera pour plus tard ! C'est transcrit, traduit et annoté ; on a des scans de tapuscrits, mais Ferlus veut les taper lui-même. Peut-être en 2016 !)

[nouvelle interface] plusieurs listes alphabétiques se succèdent sans indication du continent

Quand on choisit de voir toute la liste des langues
http://lacito.vjf.cnrs.fr/pangloss/corpus/corpora_list.php

les listes alphabétiques des divers continents se succèdent, sans indication du continent concerné. Ce qui rend la liste surprenante : "abzakh" succède à "sorabe" et "aheu" succède à "yucuna" sans qu'on voie la mention qui indique qu'on a changé de continent. Ca donne l'impression que la liste est en désordre.

(Pareil pour la page anglais)

Une solution consisterait à indiquer les continents (avec 1 couleur différente), sorte de sous-titres qui structurent la liste.

Une autre solution consisterait à mettre toutes les langues de cette page en ordre alphabétique = rompre l'organisation par continent. Pour ma part je n'y suis pas trop favorable, j'aime bien l'organisation par continent -- mais c'est peut-être du pur conservatisme grincheux :-)

Page des langues

Deux notes sur la page des langues:

En anglais, remplacer "Salomon Isles" par "Solomon Islands".

Par ailleurs, Séverine et moi nous trouvions que la page sous forme de liste est visuellement un peu fruste; nous avions pensé à l'agrémenter, au moins la moitié droite de la page, à l'aide de qqch — par exemple, la carte ?

Je propose de copier ce code, et de voir ce que cela donne
<iframe src="https://www.google.com/fusiontables/embedviz?q=select+col1+from+1yKRHAtZg2VweVSBt0uMxexE0gl3RFmOaDAE-Ag8B&amp;viz=MAP&amp;h=false&amp;lat=32&amp;lng=80&amp;t=3&amp;z=2&amp;l=col1&amp;y=2&amp;tmplt=2&amp;hml=TWO_COL_LAT_LNG" width="99%" height="600" frameborder="1" align="right" scrolling="no"></iframe>

En principe, on devrait avoir une belle carte interactive, sous forme d'encadré aligné à droite, comme sur le blog. Cela pourra rendre plus intuitive la recherche de l'internaute qui, par exemple, voudrait combiner une recherche visuelle avec la carte (par ex pour avoir une vision d'ensemble des régions où nous avons des langues — par ex. l'Asie du Sud-est, où l'on repérerait alors le paquet de langues au niveau du Vietnam), mais qui ensuite souhaiterait explorer les langues d'un pays donné (par ex. le Vietnam, donc) sous forme de liste.

J'ajoute que le code ci-dessus peut-être modifié: par ex. width="99%" height="600" peut devenir width="50%" height="500", etc., en fonction des résultats.

[DOREMIFA-4, partie 1] dépôt de données de Michel Ferlus : dossier DOREMIFA_OnlineTransfer_Khamou

Un des 4 ensembles de ce dernier dépôt (lui-même le 4e sur 4) du projet DOREMIFA !

Le plus riche et le plus beau, potentiellement : on a les enregistrements (178 documents); Ferlus a les transcriptions, et un dictionnaire, des photos... Un TRESOR !

Pour le dépôt : normalement, rien de spécial : y'a 1 page web (version fr et version en) appelée KHMU, les fichiers son, et les métadonnées appelées METADATA_KHMU.xlsx. C'est plutôt simple : 1 langue, 1 page web...

J'ai essayé de vérifier les métadonnées mais ce n'est pas moi qui ai tout fait: une bonne partie du travail a été effectuée par Frédéric Pain puis Julien Heurdier et il traîne sans doute quelques petites causes possibles de soucis.

La page web est actuellement en HTML ; elle est reprise de ton modèle; du coup, est-ce qu'il suffit de changer l'extension en .php pour que tout marche automagiquement (sic!) sur le site? Rien n'est moins sûr... D'expérience, il y aura sans doute du travail pour fignoler les pages web. A voir : est-ce qu'une bonne âme (Anne Behaghel? Anne Belingard?) pourrait s'en charger...? Sinon n'hésite pas à me redemander.

[DOREMIFA-4, partie 4] dépôt des données de Marie Martin : dossier DOREMIFA_OnlineTransfer_MM

"Issue" perdue lors de la clôture du compte, et vaillamment recommencée ^^ Allez soyons généreux, je me décerne une médaille . ...Comment : pas de médailles parmi les emoji??! Alors un diamant, tiens 🔷

Cette "Issue" sera à lire quand on (Séverine+Alexis) aura effectué le transfert des données, prévu pour le 1er février 2016.
Tout est dans le dossier DOREMIFA_OnlineTransfer_MM.

Les langues sont divisées en 3 ensembles dont chacun a sa page web. Pour les pages web, il te faut:

  • changer l'extension de HTML en PHP
  • ajouter le lien vers l'ensemble des ressources, ou me rappeler comment le faire

Les trois ensembles sont :

  • khmer
    • Il y a 2 images pour la page web, elles sont dans le sous-dossier images_for_web_page
    • Il y a 2 dialectes, il faut donc 2 liens en haut de page: khmer des Cardamomes d'une part, khmer krom de l'autre.
  • bahnarique
    • Il y a 2 langues, mais sur les mêmes enregistrements. Il suffit donc d'1 lien vers les ressources, en utilisant "Tampuan" comme langue pour identifier les 2 documents.
    • Par contre pour la liste des langues (page contenant une liste), la logique suivie jusqu'ici voudrait que les 2 langues figurent. Noms anglais: Tampuan et Bru; noms français: tampuan et brou (bru)
  • langues péariques
    • Il y a 5 langues/dialectes, il faut donc 5 liens.

Certains documents ont une annotation texte qui finit en _REGIONS.txt. C'est signalé dans le fichier de métadonnées, colonne X: "Associated Files". Pas la peine d'expliquer : les utilisateurs verront ce que c'est : c'est des indications temporelles pour certains des mots. Ce sont des petits docs de travail qui peuvent être utile à quelqu'un qui reprendrait en main l'ensemble des documents d'un parler.

Recherche de solutions pour affichage rapide des pages Langues sur site Pangloss

Plus il y a de ressources pour une langue, plus l'attente est longue.

Depuis le 22/11/2017, l'utilisateur voit une animation qui signale que le serveur est en train de travailler pour lui. Du coup on voit que ça vaut la peine d'attendre. Mais le délai d'attente est long. Montre en main, il faut

  • 41 secondes pour le japhug
  • 22 secondes pour le na

(le temps est le même pour la page anglaise et française).

Test fait après 21h30 = pas une "heure de pointe" pour les serveurs.

Ca fait long, quand même... Surtout qu'il faut espérer que les listes vont s'allonger nettement au fil des ans.

Une solution (suggérée par Rémy Bonnet, si je ne m'abuse) consisterait à changer ce qui se passe quand on se rend sur la page en question : qu'au lieu d'une requête sur toute la base (qui prend nécessairement du temps) on utilise des données préparées à l'avance, mises en "mémoire cache". Comme le nombre de langues n'est pas immense (<200), ça ne représenterait pas un espace disque immense de stocker quelque part la liste des ressources pour chaque langue, de façon à l'expédier rapidement au visiteur. Les listes seraient remises à jour à chaque fois que Pangloss "moissonne" les métadonnées de CoCoON (ce que tu @sguillaume fais après chaque dépôt, c'est bien ça?).

Là ça engage une modification en profondeur.

On espère non seulement que le nombre de langues va croître, mais aussi que le nombre de dépôts par langue va grandir, y compris des accroissements spectaculaires (centaines de document). Cette modification apportée à l'interface permettrait de mieux accueillir les corpus substantiels (liste de dizaines/centaines de documents).

Quand on aura les moyens humains de développements supplémentaires, ça ne serait pas du luxe de trouver une solution technique : une sorte de niveau intermédiaire avec des listes par langue déjà prêtes. De la sorte, pour les visiteurs, le chargement serait quasi-instantané.

Merci++ !!

[DOREMIFA-4, partie 3] dépôt de données de Michel Ferlus : dossier DOREMIFA_OnlineTransfer_MK

Petite complication, petite explication : c'est appelé "MK" pour "mon-khmer", mais ce nom c'est interchangeable avec "austroasiatique".
La page web correspondante est appelée "austroasiatique":
Austroasiatic_en.html
Austroasiatic.html

Il y a 1 fichier de métadonnées :
METADATA_MK.xlsx

11 langues, mais peu de données pour chacune. Ce n'est pas le plus glorieux des ensembles documentaires. D'un autre côté il porte en germe plein de possibilités de développements possibles: c'est un petit aperçu sur des langues dont la plupart sont peu connues et peu décrites.

C'est 100% moi qui ai édité les fichiers et préparé les métadonnées. Si ça coince au dépôt, tu sauras à qui la faute :-)

Ajouter un pied de page

Quand on fait défiler les pages Pangloss de haut en bas (sur ordi ou smartphone) on dirait que ça coince, car ça s'arrête tout d'un coup. En réalité c'est psychologique: on a bien tout le contenu, mais il manque un pied de page qui fasse bien voir qu'on est arrivé en bas de page.

Au minimum, il faudrait 2 ou 3 paragraphes vides pour aérer;
encore mieux, un véritable pied de page, avec des logos ou qqch;
et/ou un clic permettant de remonter tout en haut de la page (un peu comme ici).

Un autre problème lié est le fait que, sur smartphone, l'en-tête de page (=barre des logos) est fixe et prend trop de place à l'écran (quasiment la moitié supérieure de l'écran). On pourrait trouver une solution qui réponde aux deux pb, par exemple, en descendant la barre des logos (CNRS, ANR, Humanum, Lacito etc.) tout en bas de l'écran [et en la rendant escamotable comme le reste de l'annotation (=pas fixe), au moins pour les smartphones]: ainsi on réduirait l'en-tête trop grand, et on obtiendrait un pied de page.

la langue pumi apparaît en 1er dans la liste alphabétique des langues en français

la langue pumi apparaît en 1er dans la liste alphabétique des langues

Sans doute dû à l'utilisation de majuscules? "Pumi" à corriger en "pumi"?

Pas de problème dans la liste des langues en anglais, en revanche (où tous les noms de langues sont en capitales).

(pour mémoire : le nom précédemment employé était "prinmi", mais ce terme, proposé par 1 linguiste qui n'est plus actif dans le domaine, n'a pas "pris")

encore 4 pages à mettre en ligne : khmer dédoublé ( x 2 langues : fr / en)

Comme pour les langues tai et les langues austroasiatiques, il y a pour le khmer 1 seule page à laquelle renvoyaient précédemment les liens depuis "khmer krom" et "khmer des Cardamomes" (en anglais: "Cardamom Khmer" et "Krom Khmer").

J'ai simplement dupliqué la page, pour obtenir :

  • français : khmer_krom.php et khmer_Cardamomes.php
  • anglais : Krom_Khmer_en.php et Cardamom_Khmer_en.php

Ces noms de fichiers conviennent-ils?

En outre "Krom Khmer" apparaît 2 fois dans la liste des langues (seulement dans la liste des langues en anglais).

dépôt document naxi crdo-NXQ_F1_ORIGIN : original, pour dépôt version toilettée dès que possible

Demande : dépôt du document naxi crdo-NXQ_F1_ORIGIN dans sa version originale.

Métadonnées : elles sont dans mon document de métadonnées (format habituel). A l'heure où j'écris, c'est à la ligne 790, mais ça, ça bouge tout le temps (quand j'ajoute des lignes au fichier); retrouver la ligne par l'identifiant crdo-NXQ_F1_ORIGIN.

L'original (piste audio) est ici.

La piste EGG (il n'y a pas lieu de toucher au signal ; il est très très bruité et faible, mais on ne le 'retouche' pas) : ici.

Le signal est bruité et moche. L'idée c'est de déposer un fichier audio "toiletté" pour enlever une partie du bruit électrique, mais d'archiver aussi l'original (avant toilettage). Les visiteurs auraient accès au fichier toiletté; le fichier original serait archivé aussi. S'il n'y a pas d'accès commode à l'original pour l'instant, ça ne nuit pas à mon bonheur, l'essentiel c'est que l'archivage soit fait.

La petite histoire de cette histoire (un conte naxi) est la suivante. C'est le premier récit en naxi que j'ai enregistré, en 2002. Ca s'est passé dans un studio d'enregistrement et c'est pas moi qui ai fait les réglages. (D'expérience, ça marche beaucoup mieux quand je vérifie moi-même au casque ce que ça donne!) L'audio présente un fort bruit électrique, qui paraît être celui du secteur : à 50 Hz, 150 Hz, 250 Hz notamment. S'y ajoutent des fréquences graves autour de 10 Hz. Bref l'audio est très moche à écouter. Comme j'aime pas l'audio moche, après avoir sué sang et eau à tout transcrire, j'ai laissé le document de côté.
En 2016, la locutrice a été tuée par son ex-mari, qui s'est suicidé après. Sale histoire ! Du coup l'enregistrement, et sa transcription à laquelle presque toute la famille a contribué (le père, deux frères et un cousin m'ont chacun aidé pour transcrire un bout), prennent une valeur de souvenir pour la famille et ils souhaitent que je mette en ligne.
De façon moins lugubre, ce document sera aussi utile à un doctorant naxi qui s'intéresse aux phénomènes de réduction syllabique. Le document en est plein.

J'ai saisi mes notes (carnets de terrain de l'époque) et amélioré la transcription. Un étudiant/collègue naxi, He Likun, est en train de réécouter pour voir s'il trouve des erreurs. On essaie de finir dès que possible. Le fichier de transcription devrait être prêt à déposer dans les semaines qui viennent ; si entretemps l'audio original a pu être archivé, et l'audio toiletté à sa suite, ce serait parfait.

Le filtrage, je l'ai réalisé en 2016 au moyen du banc de filtres du logiciel SoundForge (version professionnelle). Je ne savais pas faire (c'était la 1e fois) mais après avoir fait appel à un pro (collègue ingénieur) et avoir fait moi-même divers tests avec Audacity et autres, c'est "mon" fichier qui me paraît le mieux toiletté: filtres très étroits, appliqués aux fréquences parasites de façon répétée, selon les conseils trouvés dans l'aide de SoundForge.

Le fichier retouché (piste audio) est ici. Pour ne pas me mélanger les pinceaux, j'ai laissé la mention "filtréSF" (=filtré avec SoundForge) dans le titre du fichier. Lors du dépôt, ce titre serait à modifier (utiliser le même titre que l'autre fichier??)

La probabilité que quelqu'un veuille l'original n'est pas très élevée, mais elle existe. En principe, quand on bidouille le son (ce que je ne fais jamais : là c'était pour remédier un défaut évident), il faut prendre soin de conserver l'original. Il est probable qu'il existe à l'avenir de meilleurs algorithmes de dé-bruitage, qu'il faudra alors faire tourner sur l'original et non sur le fichier retouché.

Merci !!

Garder le parcours anglais de clic en clic

J'allais annoncer la nouvelle interface Pangloss sur Facebook du LaCiTO (dont le public est plutôt anglophone), mais je me suis arrêté, car j'ai constaté une fois de plus que la continuité des liens anglophones se brisait à un certain endroit de la chaîne.

L'erreur se trouve dans http://lacito.vjf.cnrs.fr/pangloss/corpus/list_rsc_en.php, par exemple
http://lacito.vjf.cnrs.fr/pangloss/corpus/list_rsc_en.php?lg=Bjedug
L'interface est bien anglaise, mais toutes les icones parchemin ciblent une page francophone, show_text.php alors qu'il faudrait show_text_en.php

Par ex, au lieu de http://lacito.vjf.cnrs.fr/pangloss/corpus/show_text.php?id=crdo-ADY_GOUTCHEPL_SOUND&idref=crdo-ADY_GOUTCHEPL
il faudrait pointer vers
http://lacito.vjf.cnrs.fr/pangloss/corpus/show_text_en.php?id=crdo-ADY_GOUTCHEPL_SOUND&idref=crdo-ADY_GOUTCHEPL

Cependant, même là il reste des éléments francophones: le menu est bien anglais, mais il faudrait changer "Autres enregistrements en Bjedug" en "Browse resources in Bjedug".
Et un petit détail: le nom qui apparaît sur l'onglet (sans doute hérité du header Html de la page) est aussi "Ressource" en français; il faudrait plutôt "Resource", ou alors plutôt "Pangloss Collection - Resource" [car c'est plus parlant que "Resource"].

Lien vers documents langue SAEK contient un bug

Un étudiant m'a signalé une erreur que j'avais commise dans le lien vers les documents de langue saek
http://lacito.vjf.cnrs.fr/pangloss/tools/list_rsc_en.php?lg=Saek%20Yo&aff=Saek
Ca contient
"Saek%20Yo"
au lieu de
"Saek"

En corrigeant le lien manuellement dans un navigateur ça marche et on voit les 3 ressources.
http://lacito.vjf.cnrs.fr/pangloss/tools/list_rsc_en.php?lg=Saek&aff=Saek

J'ai corrigé dans la page Tai_en.php, et dans la page Tai.php, qu'il faut maintenant remettre à jour en ligne.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.