Statlog - Partager des données sans les partager pour préserver la confidentialité

Mise au point de méthodes

Partager des données sans les partager pour préserver la confidentialité

Contexte

  • Il existe aux États-Unis plusieurs réseaux multicentriques distribués de données qui permettent de réaliser des études de santé et épidémiologiques à grande échelle dans de très courts délais.
  • Cependant, les questions de confidentialité rendent impossible la mise en commun des données individuelles.
  • Ces contraintes posent des problèmes méthodologiques et statistiques majeurs pour la réalisation d’études à grande échelle.

Notre approche

  • Nous avons utilisé les dossiers de santé électroniques de 34 centres du National Patient-Centered Clinical Research Network afin de mettre en œuvre de nouvelles méthodes de régression linéaire distribuées basées uniquement sur des données agrégées.
  • Nous avons estimé 12 modèles de régression linéaire multivariés pour évaluer l’association entre l’utilisation d’antibiotiques et l’obésité chez les jeunes enfants.

Nos résultats

Nous avons montré que les régressions utilisant les données agrégées et individuelles donnaient des résultats identiques.

Dans un contexte préservant la confidentialité, la même valeur peut être extraite des données agrégées et individuelles.

Ce résultat ouvre la voie au partage des données entre des établissements de soins de santé ou des institutions bancaires tout en respectant la confidentialité.