{"id":151,"date":"2025-04-02T13:56:43","date_gmt":"2025-04-02T11:56:43","guid":{"rendered":"https:\/\/tuneinsight.com\/fr\/?p=151"},"modified":"2026-01-26T13:38:57","modified_gmt":"2026-01-26T12:38:57","slug":"la-cle-de-lanonymisation-des-donnees-agregez","status":"publish","type":"post","link":"https:\/\/tuneinsight.com\/fr\/actualites\/data\/la-cle-de-lanonymisation-des-donnees-agregez\/","title":{"rendered":"La cl\u00e9 de l\u2019anonymisation des donn\u00e9es : agr\u00e9gez\u00a0!"},"content":{"rendered":"<p>Chez Tune Insight, notre mission est de permettre l\u2019utilisation des donn\u00e9es tout en garantissant leur protection, dans le but de transformer le paradigme de l\u2019\u00e9conomie des donn\u00e9es vers une \u00e9conomie des \u201cinsights\u201d plus s\u00e9curis\u00e9e, juste, et respectueuse des droits de confidentialit\u00e9 et de vie priv\u00e9e. Au c\u0153ur de notre solution se trouve la collaboration, o\u00f9 diff\u00e9rents contr\u00f4leurs de donn\u00e9es sensibles se rassemblent pour calculer ensemble de fa\u00e7on d\u00e9centralis\u00e9e gr\u00e2ce au pouvoir du chiffrement homomorphe. Malgr\u00e9 son immense potentiel, cette technologie n\u2019est cependant pas suffisante pour atteindre les niveaux de protection des donn\u00e9es que nous souhaitons fournir \u00e0 nos clients. Pour cette raison, nos primitives cryptographiques sont compl\u00e9ment\u00e9es par des privacy-enhancing technologies (PETs) de pointe qui nous permettent de soutenir cette vision.<\/p>\n<p>Dans cet article, nous expliquons comment les r\u00e9sultats d\u2019une publication scientifique parue r\u00e9cemment, <a href=\"https:\/\/www.science.org\/doi\/10.1126\/sciadv.adn7053\" target=\"_blank\" rel=\"noopener\">\u201cAnonymization: The imperfect science of using data while preserving privacy\u201d<\/a>, co-\u00e9crite par Florimond Houssiau, expert en protection des donn\u00e9es chez Tune Insight, s\u2019appliquent au travail et aux produits de Tune Insight. On notera que bien que l\u2019article se concentre sur le mod\u00e8le de confiance centralis\u00e9 (o\u00f9 les donn\u00e9es sont contr\u00f4l\u00e9es par une seule et m\u00eame entit\u00e9), beaucoup de ses r\u00e9sultats s\u2019appliquent au mod\u00e8le d\u00e9centralis\u00e9 adopt\u00e9 par Tune Insight.<\/p>\n<p><iframe loading=\"lazy\" src=\"\/\/www.youtube.com\/embed\/o6DODFKyeXk\" width=\"560\" height=\"314\" allowfullscreen=\"allowfullscreen\"><\/iframe><br \/>\n<code>Consulter la vid\u00e9o \u201c<a href=\"https:\/\/www.youtube.com\/watch?v=o6DODFKyeXk\" target=\"_blank\" rel=\"noopener\">La cl\u00e9 de l\u2019anonymisation: agr\u00e9ger des donn\u00e9es<\/a>\u201d directement sur Youtube.<\/code><\/p>\n<h2>La cl\u00e9 de l\u2019anonymisation : agr\u00e9ger des donn\u00e9es<\/h2>\n<p>L\u2019approche traditionnelle \u00e0 la protection des donn\u00e9es est la \u201cd\u00e9-identification\u201d, o\u00f9 l\u2019on modifie un jeu de donn\u00e9es de sorte \u00e0 ce que personne ne puisse \u00eatre identifi\u00e9 directement. Ce jeu de donn\u00e9es est alors partag\u00e9 avec des parties tierces. Cependant, comme soulign\u00e9 \u00e0 diverses reprises dans l\u2019article, cette approche n\u2019est pas adapt\u00e9e aux jeux de donn\u00e9es modernes, tant du fait de leur dimensionnalit\u00e9 que de la richesse des donn\u00e9es qu\u2019ils contiennent. En effet, la d\u00e9-identification de ces donn\u00e9es am\u00e8ne soit \u00e0 des r\u00e9identifications ais\u00e9es, soit \u00e0 des donn\u00e9es si modifi\u00e9es qu\u2019elles en deviennent inexploitables.<\/p>\n<blockquote><p>\u201cTraditional record-level de-identification techniques typically do not provide a good privacy-utility trade-off to anonymize data.\u201d<\/p><\/blockquote>\n<p>Dans les produits Tune Insight, les donn\u00e9es individuelles ne sont jamais partag\u00e9es avec d\u2019autres parties. \u00c0 la place, chaque instance Tune Insight calcule un r\u00e9sultat agr\u00e9g\u00e9 \u00e0 partir des donn\u00e9es d\u2019un grand nombre d\u2019entr\u00e9es distribu\u00e9es entre les diff\u00e9rents jeux de donn\u00e9es des diff\u00e9rentes sources. Ce r\u00e9sultat est calcul\u00e9 sous un chiffrement robuste, ce qui assure qu\u2019aucune autre information que ce r\u00e9sultat n\u2019est r\u00e9v\u00e9l\u00e9e pendant, ou apr\u00e8s le calcul \u00e0 qui que ce soit. Cette technique s\u2019inscrit compl\u00e8tement dans la ligne des recommandations de l\u2019article.<\/p>\n<blockquote><p>\u201cAggregate data [&#8230;] can offer a better trade-off, but they do not inherently protect against privacy attacks.\u201d<\/p>\n<p>\u201cIt is important to emphasize that, in general, releasing only aggregate data substantially reduces the vulnerability to attacks compared to record-level data in practice.\u201d<\/p><\/blockquote>\n<h2>Des agr\u00e9gats anonymes<\/h2>\n<p>Cependant, l\u2019article souligne qu&rsquo;agr\u00e9ger les donn\u00e9es n\u2019est pas suffisant en soi pour garantir la protection des donn\u00e9es. De nombreuses \u00e9tudes ont montr\u00e9 qu\u2019il est possible pour un tiers motiv\u00e9 d\u2019extraire des informations sensibles sur des individus m\u00eame \u00e0 partir d\u2019agr\u00e9gats tels que des requ\u00eates de d\u00e9nombrement ou des mod\u00e8les de machine learning. Ce probl\u00e8me est exacerb\u00e9 dans le cadre dit interactif, o\u00f9 les analystes choisissent dynamiquement quelles requ\u00eates sont appliqu\u00e9es aux donn\u00e9es.<\/p>\n<blockquote><p>\u201cIn the interactive setting, the adversary can freely define the queries that are answered, and has therefore a lot of flexibility in defining which aggregate information is disclosed. This may allow the adversary to actively exploit vulnerabilities in the system\u201d<\/p><\/blockquote>\n<p>La plupart des projets Tune Insight se font dans ce cadre interactif. En effet, les collaborations impliquent souvent de nombreux chercheuses et chercheurs qui souhaitent examiner diff\u00e9rents aspects d\u2019un m\u00eame jeu de donn\u00e9es. Nous sommes conscients de ce d\u00e9fi, et nous concevons chaque projet avec soin, de mani\u00e8re \u00e0 assurer une protection des donn\u00e9es r\u00e9pondant aux plus hautes exigences en ce domaine. Heureusement, comme d\u00e9montr\u00e9 par l\u2019article, le cadre interactif offre d\u2019importants b\u00e9n\u00e9fices en termes de s\u00e9curit\u00e9.<\/p>\n<blockquote><p>\u201cThe interactive nature of data query systems allows data curators to implement additional measures that might mitigate the risk that an adversary can successfully execute attacks. These include, for instance, mandatory authentication for the analysts and keeping a log of all queries issued by any analyst to detect possible attack attempts.\u201d<\/p><\/blockquote>\n<p>Des techniques d\u2019att\u00e9nuation des risques sont int\u00e9gr\u00e9es au c\u0153ur de la solution Tune Insight, avec notamment les deux exemples mentionn\u00e9s dans l\u2019extrait ci-dessus (authentification robuste et journal inviolable des interactions avec la plateforme). Tout calcul lanc\u00e9 sur une instance Tune Insight doit auparavant \u00eatre r\u00e9vis\u00e9 et approuv\u00e9 par le personnel comp\u00e9tent aupr\u00e8s de l\u2019instance, par exemple un comit\u00e9 d\u2019\u00e9thique, pr\u00e9alablement \u00e0 toute utilisation des donn\u00e9es. Ceci assure que tout ce qui a lieu sur une instance est soigneusement v\u00e9rifi\u00e9, accessible seulement \u00e0 des personnes habilit\u00e9es, et journalis\u00e9 de fa\u00e7on permanente pour assurer une parfaite tra\u00e7abilit\u00e9..<\/p>\n<p>Outre ces mesures au niveau de l\u2019instance, chaque projet peut \u00eatre configur\u00e9 pour utiliser des politiques de confidentialit\u00e9 et s\u00e9curit\u00e9 additionnelles, afin de pr\u00e9venir toute fuite d\u2019informations. Ces mesures incluent une taille minimale des jeux de donn\u00e9es (l\u2019instance rejette automatiquement tout calcul qui se ferait sur un nombre d\u2019entr\u00e9es trop petit) et la limitation des requ\u00eates (soit en nombre, soit en limitant \u00e0 un ensemble de requ\u00eates pr\u00e9-approuv\u00e9es). Mises ensembles, ces politiques permettent aux utilisateurs d\u2019adapter les collaborations de fa\u00e7on \u00e0 satisfaire leurs attentes de s\u00e9curit\u00e9 et confidentialit\u00e9.<\/p>\n<p>Enfin, il y a des situations o\u00f9 de telles heuristiques ne sont pas consid\u00e9r\u00e9es comme suffisantes, notamment dans le cas o\u00f9 les donn\u00e9es ou leur utilisation sont trop sensibles. Dans de tels cas, les projets peuvent \u00eatre configur\u00e9s pour employer la confidentialit\u00e9 diff\u00e9rentielle (differential privacy), une d\u00e9finition de confidentialit\u00e9 avanc\u00e9e, couverte en d\u00e9tails dans l\u2019article. La confidentialit\u00e9 diff\u00e9rentielle entra\u00eene souvent une diminution de la qualit\u00e9 des r\u00e9sultats, mais l\u2019acc\u00e8s \u00e0 cette option permet de d\u00e9bloquer des collaborations qui ne pourraient autrement pas avoir lieu !<\/p>\n<h2>Les donn\u00e9es synth\u00e9tiques chez Tune Insight<\/h2>\n<p>Obtenir les approbations n\u00e9cessaires pour l\u2019acc\u00e8s aux donn\u00e9es est souvent l\u2019\u00e9tape la plus chronophage lors du lancement d\u2019un projet, ce qui peut \u00eatre frustrant pour les analystes (et d&rsquo;une mani\u00e8re g\u00e9n\u00e9rale, toutes les parties prenantes). De plus, d\u00e9velopper un pipeline d\u2019analyses sur des donn\u00e9es sensibles peut \u00e9galement s\u2019av\u00e9rer probl\u00e9matique, voire parfois impossible. Tune Insight permet d\u2019\u00e9viter ces obstacles par l\u2019usage des donn\u00e9es synth\u00e9tiques, des jeux de donn\u00e9es g\u00e9n\u00e9r\u00e9s automatiquement de mani\u00e8re \u00e0 ressembler \u00e0 des donn\u00e9es r\u00e9elles.<\/p>\n<blockquote><p>\u201cOverall, we thus see synthetic data as a very useful tool for testing new systems and for exploratory analysis, but its accuracy strongly depends on the use case and any findings may need to be validated on the real data.\u201d<\/p><\/blockquote>\n<p>Certains sugg\u00e8rent que la donn\u00e9e synth\u00e9tique peut \u00eatre un substitut utile aux donn\u00e9es r\u00e9elles. Cependant, des <a href=\"https:\/\/www.usenix.org\/system\/files\/sec22-stadler.pdf\" target=\"_blank\" rel=\"noopener\">recherches r\u00e9centes<\/a> ont d\u00e9montr\u00e9 que les donn\u00e9es synth\u00e9tiques ne peuvent pas atteindre un bon compromis entre confidentialit\u00e9 et utilit\u00e9 (comparable \u00e0 la d\u00e9-identification). Chez Tune Insight, nous nous alignons sur l\u2019article et la recherche moderne, et nous nous concentrons sur la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour les phases pr\u00e9liminaires de travail, avec des garanties robustes de confidentialit\u00e9, laissant les analyses finales s\u2019effectuer avec\u00a0 les donn\u00e9es r\u00e9elles.<\/p>\n<h2>Le Machine Learning confidentiel<\/h2>\n<p>Le machine learning est une application phare des donn\u00e9es modernes. Comme l\u2019article le souligne, m\u00eame si les param\u00e8tres d\u2019un mod\u00e8le de machine learning sont une bo\u00eete noire calcul\u00e9e \u00e0 partir de nombreuses entr\u00e9es, ils peuvent n\u00e9anmoins r\u00e9v\u00e9ler des informations sensibles sur leurs jeux de donn\u00e9es d&rsquo;entra\u00eenement. Nous prenons ces risques tr\u00e8s au s\u00e9rieux, comme mentionn\u00e9 dans notre manifeste IA. Notre approche d\u2019apprentissage f\u00e9d\u00e9r\u00e9 hybride permet d\u2019att\u00e9nuer certains des risques associ\u00e9s \u00e0 l\u2019apprentissage de mod\u00e8les sur des donn\u00e9es sensibles. Dans les situations o\u00f9 la confidentialit\u00e9 est d\u2019une importance primordiale, notre approche peut \u00e9galement \u00eatre agr\u00e9ment\u00e9e par l\u2019utilisation de la confidentialit\u00e9 diff\u00e9rentielle lors de l&rsquo;entra\u00eenement, permettant ainsi le d\u00e9veloppement d\u2019IA collaborative confidentielle sans que vos donn\u00e9es ne quittent votre serveur.<\/p>\n<h2>L\u2019union fait la force<\/h2>\n<p>Une des conclusions cl\u00e9s de l\u2019article est qu\u2019analyser des donn\u00e9es en garantissant la protection de la vie priv\u00e9e est une t\u00e2che difficile! Mais nous sommes convaincus que Tune Insight est uniquement bien plac\u00e9 pour livrer des solutions qui atteignent un compromis optimal entre utilit\u00e9 et confidentialit\u00e9, car notre solution d\u00e9bloque le pouvoir de la coop\u00e9ration. Au-del\u00e0 du pouvoir de l\u2019amiti\u00e9, coop\u00e9rer a un avantage tr\u00e8s terre-\u00e0-terre: cela augmente la quantit\u00e9 brute de donn\u00e9es auxquelles les analystes ont acc\u00e8s. C\u2019est une observation r\u00e9currente de l\u2019article qu\u2019augmenter la taille des donn\u00e9es aide \u00e0 am\u00e9liorer la qualit\u00e9 des analyses et \u00e0 pallier les risques pour la confidentialit\u00e9. En effet, plus il y a de donn\u00e9es, moins l\u2019impact relatif d\u2019une entr\u00e9e sur le r\u00e9sultat final sera \u00e9lev\u00e9.<\/p>\n<p>Dans le cas de la confidentialit\u00e9 diff\u00e9rentielle, c\u2019est un ph\u00e9nom\u00e8ne bien connu qu\u2019augmenter la taille du jeu de donn\u00e9es permet d\u2019obtenir de meilleurs r\u00e9sultats pour des garanties robustes de confidentialit\u00e9 identiques \u2013 ce qui explique pourquoi cette technique a jusqu\u2019ici \u00e9t\u00e9 employ\u00e9e pour des jeux de donn\u00e9es de tr\u00e8s grande taille.<\/p>\n<p>Le d\u00e9fi cl\u00e9 de la coop\u00e9ration est la confiance. M\u00eame si tous les h\u00f4pitaux de Suisse souhaitaient joindre leurs donn\u00e9es pour r\u00e9pondre \u00e0 une question de recherche, il serait compl\u00e8tement impensable de centraliser toutes ces donn\u00e9es extr\u00eamement sensibles dans un seul entrep\u00f4t. Seule la coop\u00e9ration d\u00e9centralis\u00e9e peut atteindre cette \u00e9chelle tout en garantissant la confidentialit\u00e9 et la s\u00e9curit\u00e9 des donn\u00e9es.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Chez Tune Insight, notre mission est de permettre l\u2019utilisation des donn\u00e9es tout en garantissant leur protection, dans le but de transformer le paradigme de l\u2019\u00e9conomie des donn\u00e9es vers une \u00e9conomie&#8230;<\/p>\n","protected":false},"author":4,"featured_media":154,"comment_status":"closed","ping_status":"closed","sticky":true,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[7],"tags":[],"class_list":["post-151","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data"],"acf":[],"_links":{"self":[{"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/posts\/151","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/comments?post=151"}],"version-history":[{"count":11,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/posts\/151\/revisions"}],"predecessor-version":[{"id":836,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/posts\/151\/revisions\/836"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/media\/154"}],"wp:attachment":[{"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/media?parent=151"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/categories?post=151"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tuneinsight.com\/fr\/wp-json\/wp\/v2\/tags?post=151"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}