La clé de l’anonymisation des données : agrégez !
Chez Tune Insight, notre mission est de permettre l’utilisation des données tout en garantissant leur protection, dans le but de transformer le paradigme de l’économie des données vers une économie des “insights” plus sécurisée, juste, et respectueuse des droits de confidentialité et de vie privée. Au cœur de notre solution se trouve la collaboration, où différents contrôleurs de données sensibles se rassemblent pour calculer ensemble de façon décentralisée grâce au pouvoir du chiffrement homomorphe. Malgré son immense potentiel, cette technologie n’est cependant pas suffisante pour atteindre les niveaux de protection des données que nous souhaitons fournir à nos clients. Pour cette raison, nos primitives cryptographiques sont complémentées par des privacy-enhancing technologies (PETs) de pointe qui nous permettent de soutenir cette vision.
Dans cet article, nous expliquons comment les résultats d’une publication scientifique parue récemment, “Anonymization: The imperfect science of using data while preserving privacy”, co-écrite par Florimond Houssiau, expert en protection des données chez Tune Insight, s’appliquent au travail et aux produits de Tune Insight. On notera que bien que l’article se concentre sur le modèle de confiance centralisé (où les données sont contrôlées par une seule et même entité), beaucoup de ses résultats s’appliquent au modèle décentralisé adopté par Tune Insight.
Consulter la vidéo “La clé de l’anonymisation: agréger des données” directement sur Youtube.
La clé de l’anonymisation : agréger des données
L’approche traditionnelle à la protection des données est la “dé-identification”, où l’on modifie un jeu de données de sorte à ce que personne ne puisse être identifié directement. Ce jeu de données est alors partagé avec des parties tierces. Cependant, comme souligné à diverses reprises dans l’article, cette approche n’est pas adaptée aux jeux de données modernes, tant du fait de leur dimensionnalité que de la richesse des données qu’ils contiennent. En effet, la dé-identification de ces données amène soit à des réidentifications aisées, soit à des données si modifiées qu’elles en deviennent inexploitables.
“Traditional record-level de-identification techniques typically do not provide a good privacy-utility trade-off to anonymize data.”
Dans les produits Tune Insight, les données individuelles ne sont jamais partagées avec d’autres parties. À la place, chaque instance Tune Insight calcule un résultat agrégé à partir des données d’un grand nombre d’entrées distribuées entre les différents jeux de données des différentes sources. Ce résultat est calculé sous un chiffrement robuste, ce qui assure qu’aucune autre information que ce résultat n’est révélée pendant, ou après le calcul à qui que ce soit. Cette technique s’inscrit complètement dans la ligne des recommandations de l’article.
“Aggregate data […] can offer a better trade-off, but they do not inherently protect against privacy attacks.”
“It is important to emphasize that, in general, releasing only aggregate data substantially reduces the vulnerability to attacks compared to record-level data in practice.”
Des agrégats anonymes
Cependant, l’article souligne qu’agréger les données n’est pas suffisant en soi pour garantir la protection des données. De nombreuses études ont montré qu’il est possible pour un tiers motivé d’extraire des informations sensibles sur des individus même à partir d’agrégats tels que des requêtes de dénombrement ou des modèles de machine learning. Ce problème est exacerbé dans le cadre dit interactif, où les analystes choisissent dynamiquement quelles requêtes sont appliquées aux données.
“In the interactive setting, the adversary can freely define the queries that are answered, and has therefore a lot of flexibility in defining which aggregate information is disclosed. This may allow the adversary to actively exploit vulnerabilities in the system”
La plupart des projets Tune Insight se font dans ce cadre interactif. En effet, les collaborations impliquent souvent de nombreux chercheuses et chercheurs qui souhaitent examiner différents aspects d’un même jeu de données. Nous sommes conscients de ce défi, et nous concevons chaque projet avec soin, de manière à assurer une protection des données répondant aux plus hautes exigences en ce domaine. Heureusement, comme démontré par l’article, le cadre interactif offre d’importants bénéfices en termes de sécurité.
“The interactive nature of data query systems allows data curators to implement additional measures that might mitigate the risk that an adversary can successfully execute attacks. These include, for instance, mandatory authentication for the analysts and keeping a log of all queries issued by any analyst to detect possible attack attempts.”
Des techniques d’atténuation des risques sont intégrées au cœur de la solution Tune Insight, avec notamment les deux exemples mentionnés dans l’extrait ci-dessus (authentification robuste et journal inviolable des interactions avec la plateforme). Tout calcul lancé sur une instance Tune Insight doit auparavant être révisé et approuvé par le personnel compétent auprès de l’instance, par exemple un comité d’éthique, préalablement à toute utilisation des données. Ceci assure que tout ce qui a lieu sur une instance est soigneusement vérifié, accessible seulement à des personnes habilitées, et journalisé de façon permanente pour assurer une parfaite traçabilité..
Outre ces mesures au niveau de l’instance, chaque projet peut être configuré pour utiliser des politiques de confidentialité et sécurité additionnelles, afin de prévenir toute fuite d’informations. Ces mesures incluent une taille minimale des jeux de données (l’instance rejette automatiquement tout calcul qui se ferait sur un nombre d’entrées trop petit) et la limitation des requêtes (soit en nombre, soit en limitant à un ensemble de requêtes pré-approuvées). Mises ensembles, ces politiques permettent aux utilisateurs d’adapter les collaborations de façon à satisfaire leurs attentes de sécurité et confidentialité.
Enfin, il y a des situations où de telles heuristiques ne sont pas considérées comme suffisantes, notamment dans le cas où les données ou leur utilisation sont trop sensibles. Dans de tels cas, les projets peuvent être configurés pour employer la confidentialité différentielle (differential privacy), une définition de confidentialité avancée, couverte en détails dans l’article. La confidentialité différentielle entraîne souvent une diminution de la qualité des résultats, mais l’accès à cette option permet de débloquer des collaborations qui ne pourraient autrement pas avoir lieu !
Les données synthétiques chez Tune Insight
Obtenir les approbations nécessaires pour l’accès aux données est souvent l’étape la plus chronophage lors du lancement d’un projet, ce qui peut être frustrant pour les analystes (et d’une manière générale, toutes les parties prenantes). De plus, développer un pipeline d’analyses sur des données sensibles peut également s’avérer problématique, voire parfois impossible. Tune Insight permet d’éviter ces obstacles par l’usage des données synthétiques, des jeux de données générés automatiquement de manière à ressembler à des données réelles.
“Overall, we thus see synthetic data as a very useful tool for testing new systems and for exploratory analysis, but its accuracy strongly depends on the use case and any findings may need to be validated on the real data.”
Certains suggèrent que la donnée synthétique peut être un substitut utile aux données réelles. Cependant, des recherches récentes ont démontré que les données synthétiques ne peuvent pas atteindre un bon compromis entre confidentialité et utilité (comparable à la dé-identification). Chez Tune Insight, nous nous alignons sur l’article et la recherche moderne, et nous nous concentrons sur la génération de données synthétiques pour les phases préliminaires de travail, avec des garanties robustes de confidentialité, laissant les analyses finales s’effectuer avec les données réelles.
Le Machine Learning confidentiel
Le machine learning est une application phare des données modernes. Comme l’article le souligne, même si les paramètres d’un modèle de machine learning sont une boîte noire calculée à partir de nombreuses entrées, ils peuvent néanmoins révéler des informations sensibles sur leurs jeux de données d’entraînement. Nous prenons ces risques très au sérieux, comme mentionné dans notre manifeste IA. Notre approche d’apprentissage fédéré hybride permet d’atténuer certains des risques associés à l’apprentissage de modèles sur des données sensibles. Dans les situations où la confidentialité est d’une importance primordiale, notre approche peut également être agrémentée par l’utilisation de la confidentialité différentielle lors de l’entraînement, permettant ainsi le développement d’IA collaborative confidentielle sans que vos données ne quittent votre serveur.
L’union fait la force
Une des conclusions clés de l’article est qu’analyser des données en garantissant la protection de la vie privée est une tâche difficile! Mais nous sommes convaincus que Tune Insight est uniquement bien placé pour livrer des solutions qui atteignent un compromis optimal entre utilité et confidentialité, car notre solution débloque le pouvoir de la coopération. Au-delà du pouvoir de l’amitié, coopérer a un avantage très terre-à-terre: cela augmente la quantité brute de données auxquelles les analystes ont accès. C’est une observation récurrente de l’article qu’augmenter la taille des données aide à améliorer la qualité des analyses et à pallier les risques pour la confidentialité. En effet, plus il y a de données, moins l’impact relatif d’une entrée sur le résultat final sera élevé.
Dans le cas de la confidentialité différentielle, c’est un phénomène bien connu qu’augmenter la taille du jeu de données permet d’obtenir de meilleurs résultats pour des garanties robustes de confidentialité identiques – ce qui explique pourquoi cette technique a jusqu’ici été employée pour des jeux de données de très grande taille.
Le défi clé de la coopération est la confiance. Même si tous les hôpitaux de Suisse souhaitaient joindre leurs données pour répondre à une question de recherche, il serait complètement impensable de centraliser toutes ces données extrêmement sensibles dans un seul entrepôt. Seule la coopération décentralisée peut atteindre cette échelle tout en garantissant la confidentialité et la sécurité des données.