Navigation

Améliorer la performance de centres de données cloud avec des analyses approximatives

 

Pour améliorer l’expérience de l’utilisateur, des centres de calcul surveillent continuellement les grandes quantités de données entrantes. Les Big Data ainsi engendrées permettent de réunir des enseignements utiles. Dapprox a développé des méthodes et des outils de prévision des anomalies de performance en temps réel, en sélectionnant un sous-ensemble de données clés et en proposant des solutions en vue d’une meilleure gestion des ressources.

Portrait / description du projet (projet de recherche terminé)

Dapprox comporte un ensemble de méthodes et d’outils logiciels d’analyse rapides et en temps réel selon un mode approximatif. Il a visé à prévoir de potentielles anomalies (et de proposer des solutions) en prenant simultanément en compte exigences d’exactitude, délais maximaux et ressources disponibles. Dapprox cherche d’abord des caractérisques communes aux serveurs, puis ne traite qu’un sous-ensemble de données clés d’une façon qui ne nuit pas à l’exactitude des résultats. Dapprox peut notamment sélectionner et traiter de façon dynamique le volume optimal de données, basées sur des structures communes qui changent au cours du temps. Dapprox a englobé trois types de tâches: analyses prédictives attentives aux dépendances pour les prévisions, analyses approximatives du streaming pour les données vivantes et gestion des anomalies du centre de données.

Contexte

Afin de garantir la qualité du service et la fiabilité du système, des centres de données contrôlent et collectent les rapports de performance de nombreuses ressources informatiques réelles et virtuelles. Le volume des données ainsi générées est tellement grand qu’il est presque impossible de les analyser correctement en temps réel. Les analyses existantes tendent à être rudimentaires et lentes, induisant des retards dans la réparation des anomalies de performance et altérant significativement l’expérience de l’utilisateur.

Objectif

L’objectif était d’analyser des données de performance afin de mieux gérer les ressources informatiques dans les centres de calcul, ceci afin d’améliorer l’expérience de l’utilisateur. Au lieu d’analyser toutes les données, des analyses approximatives ont été développés – des méthodes et des outils basés sur des sous-ensembles de données – afin de prévoir des modèles complexes de séries d’utilisation de ressources et ce qu’on appelle des états critiques. Aussi des outils ont été créés pour le traitement et l’analyse d’anomalie en temps réel. Enfin, des programmes de gestion des anomalies ont été proposés aux centres de calcul.

Importance

La recherche présentée visait à exploiter la valeur des Big Data dans les rapports de performance des centres de données actuels afin de traiter efficacement et approximativement des tâches sur des plateformes de Big Data et d’améliorer l’expérience de l’utilisateur dans le cloud.

Dapprox devrait profiter aux praticiens des centres de données, aux chercheurs et aux utilisateurs de plateformes informatiques cloud. Comme l’approche se base sur la structure générique des Big Data, les techniques seront largement applicables à divers types de Big Data (par ex. des données de dispositifs de l’Internet des objets) et à différents scénarios système comme par exemple de centres de données énergétiquement optimisés.

Résultats

Le projet préconisait d'effectuer un traitement sélectif sur les mégadonnées en tirant parti de la dépendance spatiale et temporelle, et de réserver les ressources informatiques aux données critiques. Cet apprentissage sélectif des données était également motivé par la quantité de données «sales» figurant dans les ensembles de mégadonnées. C’est pourquoi des stratégies ont été élaborées afin de sélectionner des données informatives et précises pour former des modèles analytiques robustes. Les résultats ont également confirmé que les connaissances acquises sur les mégadonnées se font au détriment de la protection de la vie privée, révélant un compromis important entre l'utilité des données et le niveau de protection de la vie privée. Pour relever ces défis, les objectifs suivants ont été atteints:

  • Alléger et accélérer le traitement des mégadonnées: ces questions ont été abordées au moyen de stratégies de représentation à faible débit, d’un sous-échantillonnage intelligent des données et d’une modélisation hiérarchique spécifique aux modèles de séries chronologiques.
  • Rendre le traitement des mégadonnées prévisible: des modèles stochastiques ont été développés pour prédire la latence des applications de mégadonnées, qu'il s'agisse d'un simple tri des données ou d'analyses complexes. De tels modèles permettent d’aboutir un compromis calculable entre la précision du modèle et le temps d’apprentissage du modèle (et les ressources nécessaires).
  • Préserver la confidentialité du traitement des mégadonnées: des algorithmes privés différentiels présentant une fuite d’informations confidentielles à travers les mégadonnées et son analyse ont été dérivés. Combinés aux modèles de latence, ils permettent d'élargir le portefeuille des critères de conception des analyses de mégadonnées, notamment la précision, la latence et la confidentialité.
  • Rendre l'analyse des mégadonnées distribuée: différents algorithmes d'apprentissage distribués et décentralisés ont été étudiés afin qu’une analyse des mégadonnées puisse être réalisée partout, et plus précisément à l’endroit où sont collectées les données.

Le dernier programme de travail sur le partage des traces de centres de données au moyen de modèles d'apprentissage automatique a suscité l’intérêt de la Fondation nationale néerlandaise pour la science et de l'industrie pour commercialiser la solution. Un synthétiseur de données tabulaires a été développé afin que les données exclusives obtenues par des sociétés commerciales puissent être partagées avec le public sans craindre une fuite de données confidentielles. Ce développement était inattendu et a ouvert une nouvelle voie pour le projet de suivi, intitulé «Synthétiseur de données tabulaires», qui a été créé par la Fondation nationale néerlandaise pour la science en vue de commercialiser cette idée.

Titre original

Dapprox: Dependency-ware Approximate Analytics and Processing Platforms

Responsables du projet

Bénéficiaires de subsides

  • Dr. Lydia Yiyu Chen, IBM Research GmbH
  • Dr. Robert Birke, IBM Research GmbH

 

 

Plus d’informations sur ce contenu

 Contact

Ph.D. Lydia Y. Chen Associate Professor, Distributed System Department Delft University of Technology, The Netherlands http://lydiaychen.com lydiaychen@ieee.org

A ce sujet