etalab-ia / pseudonymisation_decisions_ce Goto Github PK
View Code? Open in Web Editor NEWTemporary repo to split the pseudo livrable
Temporary repo to split the pseudo livrable
Ici, je ne suis pas sûre, mais je trouve que les ressources disponibles (à présent à la toute fin de la partie 3) pourraient venir plus tôt dans le guide, par exemple dans la partie 2, qui est la partie plus "théorie / outillage" alors que la partie 3 est la partie d'illustration. Elles pourraient ensuite être reprises dans la partie 3 si besoin.
Il me semble qu'il faut aussi parler des cas d'usages des données pour faire le choix des éléments à retirer en fonction de leur utilité.
Trouver le bon curseur n'est pas simple et doit passer par une double analyse des risques de réidentification, à la fois juridique (pour évaluer par exemple quelles données ne doivent pas pouvoir être réidentifiées) et technique (pour estimer la possibilité technique de réidentifier ces données). Juger de l'utilité de conserver ou non certaines catégories de données dépendra aussi des usages envisagés de ces données.
Maintenant que j'ai parcouru tout le guide, je comprends que ce guide s'adresse aux organismes qui doivent pseudonymiser des données textuelles non structurées (décisions de justice, textes légaux, etc.) et envisagent d'avoir recours à de l'intelligence artificielle pour le faire. Le guide détaille ensuite les prérequis et les conditions de mise en oeuvre de techniques d'intelligence artificielle pour le faire.
Est-ce bien ça ? Si oui, ça pourrait être intéressant de le préciser ? Car, par exemple, ce n'est pas un guide pour pseudonymiser les données tabulaires, comme indiqué dans la partie 1.
Par exemple des porteurs de projets AMI.
Reformulation proposée:
Dans un projet d'apprentissage supervisé, on segmente les données en trois groupes: les données d'entraînement, les données de test et les données à labéliser (qui n'ont pas été annotées à la main).
Comme dans le guide sur l'ouverture des données. Ça pourrait être utile pour faciliter le passage à l'action, et ça enlève le flou autour de l'utilisation du terme "administration".
Un "Yes" s'est glissé dans le logigramme :D
Tout est dit !
D'abord vous dites "Dans le cas où les données à caractère personnel sont tabulaires" puis "un jeu de données structurées " => pour quelqu'un qui ne connaît pas bien les statistiques ou la data science, ça peut être difficile d'avoir deux mots différents qui veulent dire la même chose. Je conseillerais de choisir un terme.
"en supprimant les colonnes concernées ou en cryptant leur contenu." => CHIFFRER leur contenu.
"cette tâche est coûteuse en temps et peut requérir une expertise spécifique à la matière traitée (dans les textes juridiques par exemple)." => expertise spécifique DANS la matière traitée.
OCR => déplier l'acronyme.
Certaines parties pourraient être précisées pour rendre ce guide plus opérationnel.
Vous indiquez que "Cela dépend du contexte réglementaire, le même cadre ne s'appliquant pas à tous les documents. "
=> A qui s'adresser/où regarder pour connaître ce contexte réglementaire ?
Vous dites que "retirer trop de catégories d'informations reviendrait à perdre beaucoup d'informations et appauvrirait le contenu d'une décision."
=> Pourquoi ? est-ce que vous avez un exemple concret ?
Vous dites "Il y a donc un arbitrage à faire entre la minimisation du risque de réidentification et la préservation de l'utilité des données."
=> Qui doit faire cet arbitrage, concrètement ? Comment ? quelles compétences (juridiques, techniques...)
En l'état, la Partie 2 fait beaucoup redite avec la section "Puis-je utiliser l'intelligence artificielle (IA) pour pseudonymiser ?" de la partie 1.
Pistes d'amélioration :
Une organisation plus pertinente en trois parties : les trois principales méthodes de pseudonymisation
Dans les prérequis pour utiliser l'IA : permuter "annotation" avec "volume et qualité des données" : le second est plus important
Je trouve que les "niveaux" techniques d'annotation pourraient être clairement listés (annotation 100% manuelle / annotation par moteur de règles / annotation par de l'intelligence artificielle). Vous le faites, mais de manière un peu subtile.
Par ailleurs, quid du cas où l'IA sert à aider l'annotation humaine ? C'est peut-être quelque chose que vous pourriez plus mettre en avant ?
Conseil de Soizic : favoriser des parties plus concises, par emple une section = une partie.
En particulier, les sections "Disposer de données annotées" et "La qualité et le volume des données" de la P1 sont trop dense. Il faut donner envie de passer à l'action !
C'est un détail, mais je mettrait le lien dans "un outil d'IA de pseudo", car tel que c'est ici, c'est pas très clair à quoi renvoie le "de manière ouverte et mutualisé".
De plus cette formulation n'est pas très claire je trouve, je comprends car je sais que ca fait référence à ce qu'on appelle nos "outils mutualisés" au Lab IA; mais pour qqn d'extérieur pas sur que ce soit très explicite. Je propose une reformulation
C'est dans ce cadre qu'Etalab a développé un outil d'intelligence artificielle de pseudonymisation
pour le Conseil d'État, qui publie en open data des décisions de justice administrative. Cet outil est open-source et peut donc être réutilisé pour d'autres projets de pseudonymisation.
En l'état, certaines catégories de la partie 2 (qui est très claire) apparaissent dans la partie 3 qui sert à illustrer, mais pas toutes. Je pense notamment à "organiser ses données".
"Apprentissage" remplace "Entraîner son modèle" => peut-être reprendre le même terme pour garder de la cohérence.
Je trouve que ce n'est pas très clair pr qqn de pas très technique qu'en enlevant les noms et prénoms on ne peut pas faire le lien entre les 2 fichiers (parce qu'on supprime les clés de jointures)
Autre problème à mon sens: les adresses sont aussi des données à caractère personnel en elle meme et son directement identifiantes si ce sont des adresses complètes.
Je propose ci dessous une modif de l'exemple, avec nb d'enfants à la place d'adresse
::: tip Un exemple de différence entre pseudonymisation et anonymisation
Supposons qu'une caisse d'allocations familiales (CAF) dispose de deux fichiers : l'un avec les adresses des demandeurs d'allocation logement, l'autre avec les montants des allocations, le nombre de personnes dans le foyer. Dans les deux figurent des informations permettant d'identifier l'individu, par exemple son nom, sa date de naissance et son adresse. Si la CAF souhaite anonymiser ces données, elles supprimera ces noms et dates de naissances et remplacera les adresses complètes par le code postal par exemple. Impossible de savoir qui se cache derrière les codes postaux ou derrières les allocations reçues, ce qui garantit la protection totale des données personnelles. Mais impossible aussi pour un sociologue d'utiliser ces données pour étudier, par exemple, la répartition géographique des allocations, car le lien entre les deux fichiers ne peut plus être fait. Si elle souhaite pseudonymiser ces données, elle remplacera simplement les noms et dates par un identifiant unique au lieu de supprimer les colonnes et remplacera également les adresses complètes par les codes postaux. Le lien entre les deux fichiers peut alors être fait, sans pour autant être en mesure de connaître directement l'identité des allocataires. Pour les codes postaux avec un faible nombre d'habitants, les informations sur les montants et la composition du foyer pourraient être recoupées avec d'autres informations afin d'identifier certains individus.
Vous mentionnez que les données doivent être de qualité pour recourir à de l'IA.
=> Qui décide de la qualité de ces données ?
Par ailleurs, qui impliquer dans la phase d'annotation ? (est-ce que les experts métiers doivent être impliqués, notamment)
Ajouter des encarts de définition des termes techniques, plus clairement disponibles (par exemple à la fin), quitte à faire un rappel.
Exemples = annotation, NER, librairies, modèles linguistiques
Les lecteurs "non data scientists" sont avant tout intéressés par apprendre des méthodes et des termes techniques !
Ce qui manque peut-être c'est de clairement identifier, à chaque fois, à qui on s'adresse et dans quel but.
Garder ces éléments en tête permet de mieux savoir dans quel but on écrit et adapter le langage et le contenu.
Par exemple, si l'objectif c'est de partager nos bonnes pratiques, nos arbitrages techniques (P3), il faudrait clairement l'indiquer.
Dans le cas 1, je ne dirais pas "en supprimant néanmoins les données à caractères personnelles. Je mettrais en préservant néanmoins les noms des personnes physiques et morales.
Car ici on je dirais que "Gentioux-Pigerolles, en Creuse, situé en face de son domicile" est une données à caractère personnelle (la commune de résidence). Je fais la modif ci dessous
Cas 1 : on conserve le plus d'information possible, en supprimant néanmoins les noms des personnes physiques et morales. La preudonymisation sera par exemple : "Monsieur X. est accusé d'avoir cambriolé l'établissement "Café XXX" à Gentioux-Pigerolles, en Creuse, situé en face de son domicile, et d'avoir dérobé la recette de la semaine évaluée à 1000€". Le problème, c'est que s'il n'y a qu'un seul café dans ce petit village, il est très aisé de comprendre de quel établissement on parle, de sa localisation et donc celle du domicile de l'accusé, et ainsi de réidentifier ce dernier si l'on est familier du village. La pseudonymisation est donc inutile et ne protège pas suffisamment les données à caractère personnel.
Cas 2 : on conserve le moins d'information possible. on pourra alors obtenir la psudonymisation suivante : "Monsieur X. est accusé d'avoir cambriolé l'établissement "XXX" à YYYY, en ZZZ, situé en face de son domicile, et d'avoir dérobé la recette de la semaine évaluée à NNNN€". Le problème c'est qu'il n'y a là plus beaucoup d'information utile. Par exemple, comment réaliser une cartographie du crime sans localisation ? Comment estimer les préjudices moyens des cambriolages pour un assureur ? :::
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.