Navigation

Effiziente Analytik genomischer Daten

 

Dank des technologischen Fortschritts in der Sequenzierung des Erbguts können wir heute das Genom zahlreicher Organismen entschlüsseln. Angesichts dieser Flut von Daten schwankender Qualität stellt sich in der Biologie jedoch die Frage, wie sich solche Datenvolumen effizient und konsistent analysieren lassen.

Porträt / Projektbeschrieb (laufendes Forschungsprojekt)

Zunächst sollen geeignete Instrumente für die Organisation der genomischen Daten entwickelt und anschliessend vergleichbare biologische Elemente – etwa ähnliche Gene in unterschiedlichen Arten – abgeleitet werden. Auf der Grundlage unterschiedlicher genomischer Daten können weitere Spezies untersucht werden – ein wichtiger Aspekt für das bessere Verständnis der Evolution. Zweitens sollen neue Algorithmen des maschinellen Lernens entwickelt werden, die die Gene mit den interessantesten Merkmalen aus Zehntausenden im Erbgut vorhandenen Genen identifizieren können. Deren intensive Erforschung mithilfe von Modellierungen wird uns ermöglichen, ihre Interaktionen und ihre Entwicklung besser zu verstehen.

Hintergrund

Die Bestimmung der für die Entwicklung von Organismen wichtigen Gene hilft uns zu erkennen, welche dieser Gene überlebenswichtige Funktionen steuern. In der Medizin ist es etwa wichtig zu wissen, ob ein Gen, das in einem Modellorganismus (etwa einer Maus) identifiziert wurde, im menschlichen Organismus die gleiche Funktion hat. Um Fragen dieser Art zu beantworten, benötigen wir komplexe Rechenverfahren und hochwertiges Datenmaterial. Daher beschränken sich heutige Verfahren auf wenige, sehr gut erforschte Organismen und lassen die aktuell generierten Datenvolumen geringerer Qualität unberücksichtigt.

Ziele

Ziel dieses Projekts ist die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.

Bedeutung / Anwendung

Das Projekt aus dem Bereich der Biologie passt insofern perfekt zur Big-Data-Thematik, als es sich mit dem Umfang, der Heterogenität und der Qualität von genomischen Daten befasst. Da Konzepte für das Management und den Vergleich von Daten entwickelt werden sollen, ist es auch für andere Fachbereiche interessant, etwa für die Linguistik. Maschinelles Lernen ist ein zentrales Element der Computerwissenschaften.

Originaltitel

Efficient and accurate comparative genomics to make sense of high volume low quality data in biology

Projektverantwortliche

  • Professeur Nicolas Salamin, Département d'Ecologie et d'Evolution, Faculté de Biologie et de Médecine, Université de Lausanne
  • Dr. Marc Robinson-Rechavi, Département d'Ecologie et d'Evolution, Faculté de Biologie et de Médecine, Université de Lausanne
  • Professeur Bastien Chopard, Centre Universitaire d'Informatique, Université de Genève
  • Professeur Christophe Dessimoz, Département d'Ecologie et d'Evolution, Faculté de Biologie et de Médecine, Université de Lausanne

 

 

Weitere Informationen zu diesem Inhalt

 Kontakt

Professeur Nicolas Salamin Département d'Ecologie et d'Evolution
Faculté de Biologie et de Médecine
Université de Lausanne Biophore
1015 Lausanne Nicolas.salamin@unil.ch