Publié le: 06.06.2024
Auteurs: DSCC et OpenDP
Si l’Office fédéral de la statistique suisse (OFS) reconnaît le potentiel des données, il sait aussi que la nécessité de protéger la vie privée des citoyens freine son exploitation. Le Centre de compétences en science des données (DSCC) de l’OFS et le projet OpenDP développent conjointement des solutions pour préserver la sphère privée et utiliser au mieux les données.
Les gouvernements sont conscients du rôle des données lorsqu’il s’agit d’informer les politiques, de soutenir le secteur privé et de promouvoir les initiatives citoyennes. Des préoccupations justifiées concernant le respect de la sphère privée restreignent cependant l’utilisation et la diffusion des données à grande échelle.
À l’OFS, les scientifiques des données œuvrent pour trouver un équilibre entre protection des données personnelles et optimisation de leur exploitation à des fins d’analyse. Cet équilibre est appelé «compromis entre confidentialité et utilité». D’un côté, une bonne protection de la sphère privée exige souvent de modifier les données afin de rendre toute identification difficile, opération qui peut réduire la précision et l’utilité des données. De l’autre, il importe de disposer de données détaillées pour réaliser des analyses pertinentes. Or la précision des données risque de porter préjudice à la sphère privée. Le défi consiste à trouver un juste milieu entre des données à la fois suffisamment confidentielles pour protéger les individus et suffisamment détaillées pour fournir des résultats utiles.
Face à ce défi, la confidentialité différentielle représente la solution la plus prometteuse: elle consiste à protéger la vie privée en ajoutant du bruit aux produits de données avant leur diffusion afin de réduire au mieux les risques d’identification et le succès d’attaques malveillantes, tout en maximisant l’utilité des données obtenues. C’est dans ce but que le DSCC de l’OFS a lancé une collaboration avec le projet OpenDP (un effort collectif visant à développer des outils logiciels libres et fiables pour l’analyse statistique de données personnelles sensibles). Depuis 2022, deux membres du DSCC ont ainsi contribué à ce projet, avec pour tâche de développer des solutions applicables au sein de l’administration fédérale et au-delà.
Raphaël de Fondeville (docteur ès statistiques et senior data scientist) et Pauline Maury-Laribière (data scientist) ont rejoint le programme de chercheurs associés OpenDP Visiting Fellows Program respectivement en 2022 et en 2023. À l’instar de leurs collègues du DSCC, ils ont travaillé avec diligence pour promouvoir la confidentialité différentielle au sein de l’administration fédérale suisse. Dans le cadre du projet OpenDP, Raphaël et Pauline ont œuvré dans ce sens via la librairie OpenDP, en particulier en assurant la protection de la vie privée des contributeurs individuels qui fournissent des informations personnelles à l’administration publique. Ils se sont concentrés sur deux types de statistiques: le taux de pauvreté et la statistique des revenus. Ces statistiques sont publiées deux fois par an et servent d’information aux milieux politiques et de base pour l’allocation des ressources. Ces deux statistiques ont été choisies parce que leurs caractéristiques rendent délicate l’application de la confidentialité différentielle.
- De par leur nature, les statistiques sur la pauvreté sont géoréférencées et les cartes de pauvreté à haute résolution sont de plus en plus demandées en vue de piloter les politiques publiques. Or, la publication de données à un tel niveau de détail risque de porter préjudice aux habitants des petites entités géographiques: un risque à contrôler de près.
- Les statistiques sur les revenus sont fortement influencées par de petits groupes d’individus aux revenus très élevés: il s’avère difficile de protéger ces groupes tout en maintenant un niveau de pertinence suffisant.
Ces projets ont également servi à mieux comprendre d’autres besoins et défis en vue d’appliquer la confidentialité différentielle dans la pratique. Au cours de la collaboration, de nouvelles fonctionnalités ont été ajoutées à la bibliothèque d’OpenDP, qui permettent de travailler directement avec des données tabulaires et d’analyser plus facilement des partitions de données. Une librairie nommée Polars a servi pour réaliser des calculs de manière efficace, tandis que la librairie d’OpenDP ajoutait toutes les couches de confidentialité différentielle nécessaires. L’idée est de rendre la bibliothèque d’OpenDP plus attrayante et plus facile à utiliser pour les analystes qui souhaitent diffuser des données personnelles tout en les protégeant.
Tandis que la collaboration entre l’OFS et le projet OpenDP porte ses fruits, les travaux se poursuivent pour trouver un équilibre harmonieux entre protection et utilisation des données. Ne ratez pas le prochain article qui présentera des entretiens réalisés avec des personnes concernées au sein de l’OFS: elles examineront de nouveaux aspects de la confidentialité différentielle et de son potentiel. D’ici là, nous vous invitons à en apprendre davantage sur le sujet en regardant la vidéo de l’exposé que Raphaël de Fondeville et Pauline Maury-Laribière ont présenté à la réunion de la communauté OpenDP.
Dernière modification 06.06.2024