Navigation

Apprentissage automatique efficace à partir de la synthétisation de gros volumes de données

 

La numérisation croissante de la société et de la science engendre d’énormes quantités de données. Dans ce projet, nous développons des algorithmes efficaces de compression des données de façon à pouvoir les analyser de façon suffisamment précise.

Portrait / description du projet (projet de recherche en cours)

Notre approche complète des techniques d’optimisations mathématiques déjà existantes afin de les adapter aux tâches complexes et aux modèles variés de l’apprentissage automatique. Nous étudions aussi des liens avec la théorie de l'apprentissage statistique afin d’estimer la précision de la prévision des résultats. Nous développons, au niveau théorique, de nouveaux algorithmes et nous apportons la preuve mathématique de leurs propriétés et de l’exactitude de leurs résultats. Au niveau pratique, nous implémentons les algorithmes et les mettons à disposition sous forme de logiciel libre, tenant en compte aussi bien des architectures de centres de données modernes que des plateformes mobiles.

Contexte

L’apprentissage automatique offre diverses techniques pour détecter des modèles utiles ainsi que pour étayer et automatiser des décisions sur la base de données. Mais plus leur volume est important, plus il est difficile de résoudre efficacement les problèmes de calcul qui en découlent.

Objectif

Nous développons de nouveaux algorithmes pour analyser efficacement de gros volumes de données. L’objectif est de synthétiser ou de comprimer ces dernières de manière à réduire de façon minimale la précision des analyses statistiques et des processus d’apprentissage. Les "core sets" (ensembles de base) générés lors de la compression se traitent aussi de manière robuste et précise au moyen de méthodes de résolution complexes parce qu’ils sont considérablement plus petits que les données d’origine.

Importance / Application

Nos résultats permettront à des groupes de recherche et à des entreprises qui ne possèdent pas de très grands centres de calcul et de données de mieux faire face à leur croissance rapide. Les domaines d’application potentiels vont des systèmes de recommandation en ligne à l’Internet des objets en passant par la robotique.

Titre original

Scaling Up by Scaling Down: Big ML via Small Coresets

Responsables du projet

Prof. Andreas Krause, Departement Informatik, ETH Zürich

 

 

Plus d’informations sur ce contenu

 Contact

Prof. Andreas Krause Departement Informatik
ETH Zürich
Gebäude CAB
Universitätstrasse 6 8092 Zürich krausea@ethz.ch

A ce sujet