Navigation

Donner un sens au mégadonnées par leur intégration automatique

 

L’intégration des mégadonnées représente actuellement une tâche coûteuse et fastidieuse, car son automatisation se révèle très difficile. Ce projet vise à développer de nouvelles techniques pour intégrer de manière efficace et automatique les mégadonnées issues du Web ou des réseaux sociaux, par exemple.

Portrait / description du projet (projet de recherche en cours)

Ce projet s’articule en deux parties. La première consiste à développer puis tester de nouvelles techniques d’extraction d’information afin de caractériser de manière automatique les données disponibles, de comprendre les relations entre elles et de modéliser la distribution de leurs valeurs. Dans un deuxième temps, ces informations seront utilisées pour faciliter l’analyse et l’intégration des données disponibles. Il sera nécessaire de développer de nouvelles techniques capables de créer des schémas de données à la demande et de fournir des couches d’abstraction. L’objectif final est d’offrir des procédés permettant de combiner de manière aisée les jeux de données tout en préservant leurs particularités et leur historique.

Contexte

Une des clés de voûte du "Big Data" consiste à combiner plusieurs sources d’information pour modéliser un phénomène particulier. La plupart des méthodes actuelles se basent sur l’analyse du schéma des données et notamment sur les métadonnées qui définissent de manière univoque la structure des informations à combiner. Néanmoins, ces schémas s’avèrent souvent incomplets en pratique, par exemple pour les données provenant de réseaux sociaux ou du Web. Vu qu’il est pour l’instant impossible de les combiner de manière automatique, les spécialistes n’ont d’autre choix que de les préparer et de les intégrer manuellement. La perte de temps qui en résulte constitue l’un des problèmes majeurs du Big Data.

Objectif

Ce projet a pour but la mise au point de nouvelles techniques d’intégration automatique ou semi-automatique de données. Leur structure n’étant souvent pas définie a priori, l’enjeu central de nos recherches est de la comprendre a posteriori, en reconstruisant un schéma de données à partir des données disponibles.

Importance / Application

Ce projet revêt une importance toute particulière de par la disproportion entre le volume toujours croissant des données disponibles et le temps limité à disposition des analystes pour les traiter. Les résultats de ce projet contribueront à accélérer de manière substantielle le processus menant des données brutes aux modélisations et visualisations. De nombreux domaines nécessitant de combiner des jeux de données hétérogènes (tels que les smart cities, la médecine personnalisée ou encore l'e-science) sont susceptibles d'en bénéficier pour lesquels combiner plusieurs jeux de données, avec comme résultat des analyses et des modèles plus puissants.

Titre original

Tighten-it-All: Big Data Integration for Loosely-Structured Data

Responsables du projet

Professeur Philippe Cudré-Mauroux, Département d'Informatique, Université de Fribourg

 

 

Plus d’informations sur ce contenu

 Contact

Professeur Philippe Cudré-Mauroux Département d'Informatique Université de Fribourg Boulevard de Pérolles 90 1700 Fribourg phil@exascale.info

A ce sujet