Navigation

Eine lernende Speicherstruktur für genetische Erbinformationen

 

Die Zukunft der biomedizinischen Forschung ist eng mit der Entschlüsselung des Erbguts verknüpft. Insbesondere hängt der Erfolg davon ab, die Erbinformation hunderttausender Proben speichern, analysieren und logisch miteinander verknüpfen zu können.

Porträt / Projektbeschrieb (laufendes Forschungsprojekt)

Dank verbesserter Methoden in der biomedizinischen Forschung ist die Sequenzierung des gesamten Erbguts eines Menschen kostengünstig durchführbar. Wir entwickeln neue technische Konzepte für ein Softwaresystem, das die Aufgabe hat, Zehntausende solcher Datensätze gemeinsam zu speichern – und für die Forschung und klinische Anwendung zugänglich zu machen. Das System basiert auf so genannten Genomgraphen, einer Datenstruktur, die Informationen zur Erbgutsequenz mit anderen relevanten klinischen oder experimentellen Daten kombiniert. Die Genomgraphen lassen sich effizient mit neuen Informationen ergänzen und erlauben bei kleinem Speicheraufwand eine schnelle Suche nach Informationen. Der Fokus unserer Forschung liegt hierbei vor allem auf der Verringerung des notwendigen Speichers bei gleichzeitigem Erhalt und effizientem Zugriff auf alle Informationen.

Hintergrund

Lebewesen tragen ihren Bauplan als genetische Erbinformation in ihren Zellen. Um Lebensprozesse aber auch Krankheitsursachen zu verstehen, ist es notwendig, diese Information auslesen, abspeichern und vergleichen zu können. Die dabei angewandten Verfahren sind statistischer Natur und werden erst aussagekräftig, wenn sie die genetische Information von vielen tausend Proben einbeziehen. Das bedingt wiederum eine Strategie für kostengünstige Speicherung und schnellen Datenabgleich.

Ziele

Ziel des Projekts ist die Entwicklung eines auf neuen technischen Konzepten basierenden Softwaresystems, das die Erbinformation von Zehntausenden biologischer oder medizinischer Proben aufnehmen und effizient repräsentieren kann. Neue Proben sollen schnell hinzugefügt und mit den bestehenden Informationen verglichen werden können. Informationen zur Herkunft der Probe und weitere für die Forschung relevante Informationen finden ebenso Platz im stetig wachsenden und somit lernenden Informationsspeicher.

Bedeutung / Anwendung

Um den Zusammenhang von Erbinformationen und biologischen Merkmalen zu verstehen, ist es notwendig, ein breites Spektrum genetischer Informationen miteinander zu vergleichen. Eine grosse Herausforderung ist dabei die korrekte und nutzerfreundliche Speicherung der riesigen Datenmenge. Um beispielsweise Erbkrankheiten oder Krebserkrankungen besser zu verstehen, muss die Erbinformation möglichst vieler Betroffenen untersucht werden. Das von uns entwickelte Softwaresystem bildet hierfür die technische Grundlage und ermöglicht so effiziente biomedizinische Forschung.

Originaltitel

Scalable Genome Graph Data Structures for Metagenomics and Genome Annotation

Projektverantwortliche

  • Prof. Gunnar Rätsch, Institut für Informationssysteme, ETH Zürich
  • Prof. Torsten Hoefler, Departement Informatik, ETH Zürich
  • Prof. Mario Stanke, Institut für Mathematik und Informatik, Universität Greifswald

 

 

Weitere Informationen zu diesem Inhalt

 Kontakt

Prof. Gunnar Rätsch Institut für Informationssysteme
ETH Zürich
Gebäude CAB
Universitätsstrasse 6 8092 Zürich raetsch@inf.ethz.ch

Zu diesem Thema