Navigation

Une structure de stockage des informations génétiques capable d’apprendre

 

L’avenir de la recherche biomédicale est étroitement lié au décodage du patrimoine génétique. Son succès dépend en particulier de la possibilité d’enregistrer, d’analyser et de lier de manière logique les informations génétiques de centaines de milliers d’échantillons.

Portrait / description du projet (projet de recherche en cours)

Grâce à une amélioration des méthodes dans la recherche biomédicale, le séquençage de l’ensemble du patrimoine génétique d’un être humain peut être effectué à moindre coût. Nous développons de nouveaux concepts techniques pour un système logiciel dont la mission consiste à stocker des dizaines de milliers de jeux de données de ce type et de les mettre à disposition de la recherche et de l’application clinique. Le système se base des graphes de génome, une structure de données qui combine des informations sur la séquence du génome avec d’autres données cliniques ou expérimentales pertinentes. Les graphes de génome peuvent être efficacement complétés par de nouvelles informations et permettent une recherche rapide avec un stockage à moindre coût. Notre recherche se focalise surtout sur une réduction de la taille de la mémoire nécessaire avec un accès efficace à toutes les informations.

Contexte

Le plan de construction des êtres vivants est contenu dans leurs cellules sous forme d’information génétique. Afin de comprendre les processus vitaux et également les causes des maladies, il est nécessaire de pouvoir trier, stocker et comparer cette information génétique. Les méthodes utilisées sont de nature statistique et ne deviennent pertinentes qu’au moment où elles prennent en compte l’information génétique de plusieurs milliers d’échantillons. Cela nécessite une stratégie de stockage peu coûteux et de comparaison rapide des données.

Objectif

Le projet a pour objectif le développement d’un système logiciel, basé sur de nouveaux concepts techniques, capable d’enregistrer et représenter efficacement l’information génétique de dizaines de milliers d’échantillons biologiques ou médicaux. Il doit être à même d’accueillir rapidement de nouveaux échantillons et de les comparer aux données existantes. Des informations importantes pour la recherche, comme l’origine des échantillons, trouvent également place dans cette structure de stockage en constante croissance et donc capable d’apprendre.

Importance / Application

Comprendre les liens entre information génétique et caractéristiques biologiques nécessite de comparer un large spectre d’informations génétiques. Dans ce contexte, un stockage correct et convivial d’énormes quantités de données représente un défi. Une meilleure compréhension des maladies génétiques ou des cancers requiert l’information génétique du plus grand nombre possible de personnes touchées. Le système logiciel que nous développons en constitue la base technique indispensable en vue d’une recherche biomédicale efficace.

Titre original

Scalable Genome Graph Data Structures for Metagenomics and Genome Annotation

Responsables du projet

  • Prof. Gunnar Rätsch, Institut für Informationssysteme, ETH Zürich
  • Prof. Torsten Hoefler, Departement Informatik, ETH Zürich
  • Prof. Mario Stanke, Institut für Mathematik und Informatik, Universität Greifswald

 

 

Plus d’informations sur ce contenu

 Contact

Prof. Gunnar Rätsch Institut für Informationssysteme
ETH Zürich
Gebäude CAB
Universitätsstrasse 6 8092 Zürich raetsch@inf.ethz.ch

A ce sujet