Navigation

Analyse des flux de données respectant la confidentialité pour les non-informaticiens

 

La société produit des mégadonnées de manière continue et avec une rapidité sans précédent. Il est de ce fait irréaliste de vouloir former un nombre suffisant d’informaticiens pour les collecter et les analyser ces données. Il serait donc préférable de développer de nouveaux moyens d’analyse.

Portrait / description du projet (projet de recherche en cours)

Dans ce projet, nous développons un système de traitement, à l’échelle du pétaoctet, respectant la confidentialité et destiné à du matériel informatique standard. Nous mettons premièrement à disposition un langage de programmation convivial basé sur des requêtes traditionnelles mais avec des extensions pour les opérations statistiques et la capacité nécessaire pour des opérations en temps réel. Dans un deuxième temps, le langage permet aux utilisateurs de préciser le niveau souhaité de confidentialité. Troisièmement, le compilateur système traduit en calculs exécutables les fonctions statistiques et les spécifications en matière de confidentialité. Enfin, l’environnement d’exécution sélectionne la meilleure approche pour optimiser l’exécution en utilisant des systèmes existants (par ex. Apache Flink, Spark Streaming ou Storm).

Contexte

La production de mégadonnées va bientôt dépasser les capacités de stockage ainsi que celles des experts informatiques en mesure de les traiter. En outre, la question de la protection des données revient toujours davantage sur le tapis. Répondre à ces questions exige ce qu’on appelle des systèmes de traitement des flux, qui analysent en continu les données entrantes, au lieu de les stocker, et permettent aux scientifiques non-informaticiens d’affiner leur analyse tout en préservant la confidentialité. Ce projet pourrait fortement simplifier le développement de nouvelles applications basées sur des analyses de données en temps réel acceptables socialement.

Objectif

Nous développerons un système d’analyse à l’échelle du pétaoctet (c.-à-d. traitant des millions de gigaoctets) qui permettant à des scientifiques non-informaticiens une analyse à haute performance des flux de données. Notre solution facilitera les opérations statistiques avancées en temps réel et assurera la confidentialité des données. Pour évaluer la robustesse et la fonctionnalité de notre système, nous allons reproduire le système de traitement des données du radiotélescope «Australian Square Kilometre Array Pathfinder». Cela générera jusqu’à 2,5 gigaoctets par seconde de données brutes. Pour évaluer le respect de la confidentialité, nous analyserons les habitudes télévisuelles de quelque trois millions de personnes.

Importance / Application

L’omniprésence, dans notre société, de dispositifs électroniques et de capteurs provoque une avalanche de données. Les résultats de ce projet permettront aux scientifiques non-informaticiens de les analyser et d’explorer efficacement leurs sources en constante croissance, tout en respectant les lois sur la protection des données.

Titre original

Privacy Preserving, Peta-scale Stream Analytics for Domain-Experts

Responsables du projet

  • Prof. Michael Böhlen, Institut für Informatik, Universität Zürich
  • Prof. Abraham Bernstein, Institut für Informatik, Universität Zürich

 

 

Plus d’informations sur ce contenu

 Contact

Professor Michael Böhlen Institut für Informatik Universität Zürich
BIN 2.E.13
Binzmühlestrasse 14 8050 Zürich boehlen@ifi.uzh.ch

A ce sujet