Publié le: 01.07.2024
Auteur: Raphaël de Fondeville
La plateforme Lomas vise à renforcer la recherche, à fournir des indicateurs objectifs pour l’élaboration des politiques et à stimuler l’innovation dans tous les secteurs, tout en respectant les normes les plus strictes en matière de confidentialité des données.
L’administration fédérale suisse, et en particulier l’Office fédéral de la statistique (OFS), collecte de très grands volumes de données pour accomplir ses tâches. Ces données alimentent la production de statistiques régionales, nationales et internationales portant sur différents secteurs. Leur immense potentiel reste cependant largement inexploité en raison de réglementations strictes et légitimes en matière de protection de la vie privée, ce qui empêche leur utilisation secondaire à des fins autres que celles pour lesquelles elles ont été collectées.
Rendre possible l’exploitation secondaire des données détenues par l’administration est un sujet des plus complexes, qu’il s’agit d’aborder avec précaution. Il est en effet essentiel de garantir le droit à la vie privée des individus en cas de réutilisation des données et de veiller à ce que les avantages de celle-ci ne se fassent pas au détriment des citoyens, des ménages et des entreprises. Ces considérations revêtent une importance primordiale pour assurer l’acceptation, politique et sociale, de cette pratique.
Lomas est une nouvelle plateforme en source ouverte mise au point par le Centre de compétences en science des données (DSCC) de l’OFS et conçue pour exploiter le potentiel des données détenues par les administrations publiques. Les utilisateurs autorisés, tels que les chercheurs agréés et les analystes gouvernementaux, peuvent ainsi exécuter des algorithmes sur des jeux de données, sans accéder directement aux données à proprement parler. Concrètement, ils accèdent à la plateforme à distance et soumettent leurs requêtes pour exécution sur ces jeux de données. Lomas exécute les algorithmes sans révéler les données aux utilisateurs et renvoie les résultats protégés par la confidentialité différentielle (differential privacy), une méthodologie qui introduit un bruit contrôlé dans ces résultats afin d’empêcher qu’un tiers mal intentionné puisse extraire avec fiabilité des informations identifiables. La confidentialité différentielle permet de quantifier et de contrôler mathématiquement le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées; voir la publication associée à la plateforme pour les détails concernant son implémentation: https://arxiv.org/abs/2406.17087.
Lomas vise à transformer la manière dont les données détenues par le secteur public sont exploitées, en permettant d’obtenir des connaissances précieuses à partir d'informations précédemment inaccessibles. La nouvelle plateforme renforcera la recherche, fournira des indicateurs pour l’élaboration des politiques (à l’instar d’interventions en matière de santé publique) et stimulera l’innovation dans tous les secteurs, tout en respectant les normes les plus strictes en matière de confidentialité des données.
Lomas est disponible en source ouverte sur le GitHub du DSCC. Elle se trouve encore au stade de la démonstration de faisabilité (proof-of-concept, POC) au sein de l’OFS. Le DSCC s’est associé avec l’INSEE (Institut national de la statistique et des études économiques) en France pour effectuer des essais uniquement sur des données publiques et a donc déployé Lomas sur le datalab Onyxia en source ouverte. Les membres des instituts nationaux de statistique peuvent demander l’accès à Onyxia pour faire des essais avec Lomas.
Dernière modification 01.07.2024