etalab-ia / pseudonymisation_decisions_ce Goto Github PK

View Code? Open in Web Editor NEW

14.0 14.0 4.0 26.38 MB

Temporary repo to split the pseudo livrable

Python 67.59% HTML 0.07% CSS 7.34% Jupyter Notebook 1.78% R 8.44% JavaScript 13.08% Shell 0.65% Roff 1.04%

pseudonymisation_decisions_ce's People

Contributors

Stargazers

Watchers

Forkers

roseporeaux psorianom davidlama space-soft

pseudonymisation_decisions_ce's Issues

Déplacer "Quelles ressources disponibles pour pseudonymiser" ?

Ici, je ne suis pas sûre, mais je trouve que les ressources disponibles (à présent à la toute fin de la partie 3) pourraient venir plus tôt dans le guide, par exemple dans la partie 2, qui est la partie plus "théorie / outillage" alors que la partie 3 est la partie d'illustration. Elles pourraient ensuite être reprises dans la partie 3 si besoin.

Partie 1 - Quelles données personnelles dois-je retirer ?

Il me semble qu'il faut aussi parler des cas d'usages des données pour faire le choix des éléments à retirer en fonction de leur utilité.

Trouver le bon curseur n'est pas simple et doit passer par une double analyse des risques de réidentification, à la fois juridique (pour évaluer par exemple quelles données ne doivent pas pouvoir être réidentifiées) et technique (pour estimer la possibilité technique de réidentifier ces données). Juger de l'utilité de conserver ou non certaines catégories de données dépendra aussi des usages envisagés de ces données.

Préciser l'objectif du guide dans l'introduction

Maintenant que j'ai parcouru tout le guide, je comprends que ce guide s'adresse aux organismes qui doivent pseudonymiser des données textuelles non structurées (décisions de justice, textes légaux, etc.) et envisagent d'avoir recours à de l'intelligence artificielle pour le faire. Le guide détaille ensuite les prérequis et les conditions de mise en oeuvre de techniques d'intelligence artificielle pour le faire.

Est-ce bien ça ? Si oui, ça pourrait être intéressant de le préciser ? Car, par exemple, ce n'est pas un guide pour pseudonymiser les données tabulaires, comme indiqué dans la partie 1.

Faire relire à notre public cible

Par exemple des porteurs de projets AMI.

Partie 2 - organiser ses données

Reformulation proposée:

Dans un projet d'apprentissage supervisé, on segmente les données en trois groupes: les données d'entraînement, les données de test et les données à labéliser (qui n'ont pas été annotées à la main).

Ajouter une section "Quelles personnes mobiliser" ?

Comme dans le guide sur l'ouverture des données. Ça pourrait être utile pour faciliter le passage à l'action, et ça enlève le flou autour de l'utilisation du terme "administration".

Remplacer "Yes" par "Oui" dans le logigramme

Un "Yes" s'est glissé dans le logigramme :D

Déplacer la figure de la Partie 3 dans la Partie 2

Tout est dit !

Suggestions de reformulation dans la partie 1

D'abord vous dites "Dans le cas où les données à caractère personnel sont tabulaires" puis "un jeu de données structurées " => pour quelqu'un qui ne connaît pas bien les statistiques ou la data science, ça peut être difficile d'avoir deux mots différents qui veulent dire la même chose. Je conseillerais de choisir un terme.

"en supprimant les colonnes concernées ou en cryptant leur contenu." => CHIFFRER leur contenu.

"cette tâche est coûteuse en temps et peut requérir une expertise spécifique à la matière traitée (dans les textes juridiques par exemple)." => expertise spécifique DANS la matière traitée.

OCR => déplier l'acronyme.

Manque de certaines précisions concrètes dans la partie "Quelles données personnelles dois-je retirer de mon jeu de données"

Certaines parties pourraient être précisées pour rendre ce guide plus opérationnel.

Vous indiquez que "Cela dépend du contexte réglementaire, le même cadre ne s'appliquant pas à tous les documents. "
=> A qui s'adresser/où regarder pour connaître ce contexte réglementaire ?

Vous dites que "retirer trop de catégories d'informations reviendrait à perdre beaucoup d'informations et appauvrirait le contenu d'une décision."
=> Pourquoi ? est-ce que vous avez un exemple concret ?

Vous dites "Il y a donc un arbitrage à faire entre la minimisation du risque de réidentification et la préservation de l'utilité des données."
=> Qui doit faire cet arbitrage, concrètement ? Comment ? quelles compétences (juridiques, techniques...)

Factorisation de la partie 1.2 et 2

En l'état, la Partie 2 fait beaucoup redite avec la section "Puis-je utiliser l'intelligence artificielle (IA) pour pseudonymiser ?" de la partie 1.

Pistes d'amélioration :

fusion complète : intégrer la checklist de la section "Puis-je utiliser l'IA" dans la partie 2, à la fin, par exemple sous forme d'encart
la section de la P1 peut servir à donner envie de lire la P2 : ne pas introduire trop de vocabulaire technique dans la partie 1, la réserver pour la partie 2 (annotation, NER, etc.). Plus axée prérequis.

Réorganiser la section "Quelles sont les différentes méthodes de pseudonymisation ?"

Une organisation plus pertinente en trois parties : les trois principales méthodes de pseudonymisation

à la main
avec des moteurs de règles
avec l'IA
=> puis enchainement avec les prérequis pour utiliser l'IA.
=> plus pédagogique, enchainement plus logique

Dans les prérequis pour utiliser l'IA : permuter "annotation" avec "volume et qualité des données" : le second est plus important

Rendre plus séquentielle la partie "Quelles méthodes de pseudonymisation ?"

Je trouve que les "niveaux" techniques d'annotation pourraient être clairement listés (annotation 100% manuelle / annotation par moteur de règles / annotation par de l'intelligence artificielle). Vous le faites, mais de manière un peu subtile.

Par ailleurs, quid du cas où l'IA sert à aider l'annotation humaine ? C'est peut-être quelque chose que vous pourriez plus mettre en avant ?

Faire un effort de synthèse pour passage à l'action

Conseil de Soizic : favoriser des parties plus concises, par emple une section = une partie.
En particulier, les sections "Disposer de données annotées" et "La qualité et le volume des données" de la P1 sont trop dense. Il faut donner envie de passer à l'action !

Intro - A quoi sert ce guide ? "de manière ouverte et mutualisée"

C'est un détail, mais je mettrait le lien dans "un outil d'IA de pseudo", car tel que c'est ici, c'est pas très clair à quoi renvoie le "de manière ouverte et mutualisé".
De plus cette formulation n'est pas très claire je trouve, je comprends car je sais que ca fait référence à ce qu'on appelle nos "outils mutualisés" au Lab IA; mais pour qqn d'extérieur pas sur que ce soit très explicite. Je propose une reformulation

C'est dans ce cadre qu'Etalab a développé un outil d'intelligence artificielle de pseudonymisation
pour le Conseil d'État, qui publie en open data des décisions de justice administrative. Cet outil est open-source et peut donc être réutilisé pour d'autres projets de pseudonymisation.

Reprendre les catégories de la partie 2 dans la partie 3

En l'état, certaines catégories de la partie 2 (qui est très claire) apparaissent dans la partie 3 qui sert à illustrer, mais pas toutes. Je pense notamment à "organiser ses données".
"Apprentissage" remplace "Entraîner son modèle" => peut-être reprendre le même terme pour garder de la cohérence.

Partie 1 - Exemple anonymisation

Je trouve que ce n'est pas très clair pr qqn de pas très technique qu'en enlevant les noms et prénoms on ne peut pas faire le lien entre les 2 fichiers (parce qu'on supprime les clés de jointures)
Autre problème à mon sens: les adresses sont aussi des données à caractère personnel en elle meme et son directement identifiantes si ce sont des adresses complètes.
Je propose ci dessous une modif de l'exemple, avec nb d'enfants à la place d'adresse

::: tip Un exemple de différence entre pseudonymisation et anonymisation
Supposons qu'une caisse d'allocations familiales (CAF) dispose de deux fichiers : l'un avec les adresses des demandeurs d'allocation logement, l'autre avec les montants des allocations, le nombre de personnes dans le foyer. Dans les deux figurent des informations permettant d'identifier l'individu, par exemple son nom, sa date de naissance et son adresse. Si la CAF souhaite anonymiser ces données, elles supprimera ces noms et dates de naissances et remplacera les adresses complètes par le code postal par exemple. Impossible de savoir qui se cache derrière les codes postaux ou derrières les allocations reçues, ce qui garantit la protection totale des données personnelles. Mais impossible aussi pour un sociologue d'utiliser ces données pour étudier, par exemple, la répartition géographique des allocations, car le lien entre les deux fichiers ne peut plus être fait. Si elle souhaite pseudonymiser ces données, elle remplacera simplement les noms et dates par un identifiant unique au lieu de supprimer les colonnes et remplacera également les adresses complètes par les codes postaux. Le lien entre les deux fichiers peut alors être fait, sans pour autant être en mesure de connaître directement l'identité des allocataires. Pour les codes postaux avec un faible nombre d'habitants, les informations sur les montants et la composition du foyer pourraient être recoupées avec d'autres informations afin d'identifier certains individus.

Apporter des précisions concrètes dans la partie "Quelles méthodes de pseudonymisation ?"

Vous mentionnez que les données doivent être de qualité pour recourir à de l'IA.
=> Qui décide de la qualité de ces données ?

Par ailleurs, qui impliquer dans la phase d'annotation ? (est-ce que les experts métiers doivent être impliqués, notamment)

Plus de lexiques

Ajouter des encarts de définition des termes techniques, plus clairement disponibles (par exemple à la fin), quitte à faire un rappel.
Exemples = annotation, NER, librairies, modèles linguistiques

Les lecteurs "non data scientists" sont avant tout intéressés par apprendre des méthodes et des termes techniques !

Mieux cerner l'objectif et le public

Ce qui manque peut-être c'est de clairement identifier, à chaque fois, à qui on s'adresse et dans quel but.

A qui on s'adresse : important puisque chaque partie ne vise pas le même public. Le rappeler en début de partie ?
Dans quel but, quel est le but de ce guide : est-ce un guide pédagogique, un guide technique ? Le rappeler aussi.

Garder ces éléments en tête permet de mieux savoir dans quel but on écrit et adapter le langage et le contenu.
Par exemple, si l'objectif c'est de partager nos bonnes pratiques, nos arbitrages techniques (P3), il faudrait clairement l'indiquer.

Partie 1 - Exemple de pseudo de décision de justice

Dans le cas 1, je ne dirais pas "en supprimant néanmoins les données à caractères personnelles. Je mettrais en préservant néanmoins les noms des personnes physiques et morales.
Car ici on je dirais que "Gentioux-Pigerolles, en Creuse, situé en face de son domicile" est une données à caractère personnelle (la commune de résidence). Je fais la modif ci dessous

Cas 1 : on conserve le plus d'information possible, en supprimant néanmoins les noms des personnes physiques et morales. La preudonymisation sera par exemple : "Monsieur X. est accusé d'avoir cambriolé l'établissement "Café XXX" à Gentioux-Pigerolles, en Creuse, situé en face de son domicile, et d'avoir dérobé la recette de la semaine évaluée à 1000€". Le problème, c'est que s'il n'y a qu'un seul café dans ce petit village, il est très aisé de comprendre de quel établissement on parle, de sa localisation et donc celle du domicile de l'accusé, et ainsi de réidentifier ce dernier si l'on est familier du village. La pseudonymisation est donc inutile et ne protège pas suffisamment les données à caractère personnel.
Cas 2 : on conserve le moins d'information possible. on pourra alors obtenir la psudonymisation suivante : "Monsieur X. est accusé d'avoir cambriolé l'établissement "XXX" à YYYY, en ZZZ, situé en face de son domicile, et d'avoir dérobé la recette de la semaine évaluée à NNNN€". Le problème c'est qu'il n'y a là plus beaucoup d'information utile. Par exemple, comment réaliser une cartographie du crime sans localisation ? Comment estimer les préjudices moyens des cambriolages pour un assureur ? :::

Commentaires d'Inès

Les parties 2 et 3 sont ok
La partie 1 est trop dense (gros paragraphes, pas assez d'exemples et d'illustrations) et trop techniques
La partie "différence entre anonymisation et pseudonymisation" ne définit pas anonymisation, donc peu clair
Utiliser "données à caractère personnel", pas "données personnelles"