Bioinformatikdatenbanken: Abfragen in natürlicher Sprache

Komplexe Bioinformatikdatenbanken bergen enormes Wissen, das aber nur mit technischem Know-How abgefragt werden kann. Ziel des Projekts ist es, eine intuitive, Google-ähnliche Suchfunktion zu entwickeln, die helfen soll, neue Zusammenhänge in den gespeicherten Daten zu erkennen.

Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Die Aufgabe dieses Projekts ist vergleichbar mit der Übersetzung von einer Sprache in eine andere. Unter Verwendung dieser Analogie kann man die Sprachen, die für die Abfrage von Bioinformatikdaten benutzt werden, mit Esperanto und Latein vergleichen. Werden diese Sprachen nicht oder nur schlecht beherrscht, lassen sich nur beschränkte biowissenschaftliche Erkenntnisse gewinnen, da die Kommunikation mit dem System harzt. BioSODA (Search Over DAta Warehouse for Biology) soll intuitive Suchbegriffe in komplexe Suchanfragen der Datenbanken umwandeln.
Hintergrund
Rasante Fortschritte in der DNA-Sequenzierung machen die Biowissenschaften zu einer sehr datenintensiven Disziplin. Unmengen an Bioinformatikdaten sind in komplexen Datenbanken gespeichert, die zwar auf mächtigen Technologien beruhen, doch für Abfragen viel Hintergrundwissen in Informatik benötigen. Für die effiziente Analyse von Dutzenden von Bioinformatikdatenbanken werden neue Suchtechnologien benötigt.
Ziele
Dieses Projekt entwickelt neue Google-ähnliche Suchmöglichkeiten, so dass Forschende die Datenbanken intuitiv abfragen und sich auf wissenschaftliche Fragestellungen konzentrieren können.
Bedeutung / Anwendung
BioSODA ermöglicht das einfachere Abfragen der riesigen Mengen an Bioinformatikdaten. Das Programm macht auch Suchvorschläge, um Informationen anzuzeigen, nach denen nicht ausdrücklich gesucht wurde. Wir erwarten uns einen einfacheren Zugang zu Wissen und somit raschere Kenntnisse von vielleicht noch unbekannten, biologischen Zusammenhängen.
Resultat
Vor dem Start des Bio-SODA-Projekts mussten Endanwenderinnen und Endanwender für den Zugriff auf die grossen Bioinformatik-Datenbanken die Abfragesprache SPARQL beherrschen und die zugrundeliegende Struktur der Datenbanken kennen. Da die meisten nicht über ausreichende Kenntnisse verfügten, konnten sie die Unmengen von Informationsquellen nicht effektiv abfragen oder benötigten die Hilfe einiger weniger Fachleute, um auf ihre Daten zuzugreifen. Dieser Prozess war sowohl zeitaufwendig als auch ineffizient, da Forschende ihre kostbare Zeit in die Datensuche investierten, anstatt wissenschaftliche Forschung zu betreiben.
Mit Bio-SODA wurde erfolgreich der Grundstein für die Anwendung des entwickelten Systems und des Forschungsansatzes weit über die Biowissenschaften hinausgelegt. So wird Bio-SODA heute auch im Projekt INODE (Intelligent Open Data Exploration, www.inode-project.eu) eingesetzt, gefördert vom Programm "Horizon 2020" der Europäischen Union. Das Ziel von Bio-SODA in INODE ist es, datensatzübergreifende Abfragen in natürlicher Sprache aus drei wissenschaftlichen Domänen zu ermöglichen: Krebs-Biomarker-Forschung, Forschungs- und Innovationspolitik sowie Astrophysik.
Das führt zu den drei Hauptaussagen:
1) Die Digitalisierungsbemühungen in allen Wissensgebieten sind in den letzten Jahren rasant fortgeschritten. Um jedoch das volle Potenzial der Digitalisierung auszuschöpfen und damit Fachexpertinnen und Fachexperten in die Lage zu versetzen, routinemässig Erkenntnisse und wissenschaftliche Ergebnisse aus Big Data zu extrahieren, müssen wir die gemeinsame Nutzung und Integration von Daten sowie benutzerfreundliche Schnittstellen zur Abfrage dieser Daten verbessern.
2) Das Bio-SODA-Projekt hat gezeigt, wie Bioinformatik-Datensätze aus traditionell unverbundenen Bereichen der vergleichenden Genomik interoperabel gemacht werden können. Das Projekt veranschaulichte anhand von realen Anwendungsfällen die Vorteile der Datenintegration, indem es leistungsfähigere semantische Abfragen als bisher ermöglichte.
3) Bio-SODA hat einen wesentlichen Beitrag dazu geleistet, die Kommunikation mit Datenbanken zu vermenschlichen, indem es einen intuitiven Zugriff auf komplexe Bioinformatik-Datenbanken in natürlicher Sprache ermöglicht und gleichzeitig das erhebliche Potenzial für weitere Verbesserungen bei der Durchführung komplexer Abfragen über mehrere Ressourcen hinweg aufzeigt.
Originaltitel
Bio-SODA: Enabling Complex, Semantic Queries to Bioinformatics Databases through Intuitive Searching over Data

Bioinformatikdatenbanken: Abfragen in natürlicher Sprache

Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)

Hintergrund

Ziele

Bedeutung / Anwendung

Resultat

Originaltitel