Bases de données bioinformatiques: recherches en langage naturel

Les banques de données bioinformatiques complexes renferment énormément de connaissances, mais seul un bagage technique permet d’y accéder. Le projet a pour objectif de développer une fonction de recherche intuitive comparable à Google. Elle doit aider à reconnaître de nouveaux phénomènes dans les données enregistrées.

Portrait / description du projet (projet de recherche terminé)
Si les langages employés pour consulter des données bioinformatiques sont peu ou mal maîtrisés, la difficulté de communiquer avec le système ne donne accès qu’à un nombre limité de connaissances en science du vivant. BioSODA (Search Over DAta Warehouse for Biology) est censé transformer des mots-clés intuitifs en requêtes de recherche complexes.
Contexte
De par les progrès fulgurants réalisés dans le séquençage de l’ADN, les sciences du vivant génère un très grand volume d’informations bioinformatiques enregistrées dans des banques de données complexes. Bien qu’elles se basent sur des technologies robustes, leur consultation nécessite des connaissances approfondies en informatique. De nouvelles approches sont nécessaires pour une analyse plus efficace.
Objectif
Ce projet développe des outils de recherche comparables au moteur de recherche Google, afin que les chercheurs puissent consulter les banques de données de manière intuitive et se concentrer sur des questions scientifiques.
Importance / Application
BioSODA permet de consulter plus facilement les énormes quantités de données bioinformatiques. Le programme formule aussi des propositions de recherche, afin de mettre en évidence des informations qui ne sont pas expressément recherchées. Nous espérons obtenir ainsi un accès plus facile au savoir et développer plus rapidement des connaissances sur des phénomènes biologiques encore inconnus.
Résultats
Avant le lancement du projet Bio-SODA, l’accès aux principales bases de données bioinformatiques exigeait des utilisateurs qu’ils maîtrisent le langage d’interrogation SPARQL et connaissent la structure sous-jacente des bases de données. La plupart d’entre eux ne disposaient pas toutefois des compétences suffisantes, ce qui les empêchait de consulter efficacement les innombrables sources d’informations ou les contraignait à demander de l’aide à des spécialistes pour accéder à leurs données. Ce processus était à la fois laborieux et inefficace car les chercheurs consacraient leur temps précieux à la manipulation des données plutôt qu’à la recherche scientifique.
Bio-SODA a su jeter les bases permettant d’appliquer le système développé et l’approche de recherche bien au-delà des sciences de la vie. Par exemple, Bio-SODA est désormais appliqué dans le projet INODE – Intelligent Open Data Exploration (www.inode-project.eu) – financé par le programme «Horizon 2020» de l’Union européenne. L’objectif de Bio-SODA dans INODE est de permettre l'interrogation en langage naturel d'ensembles de données de trois domaines scientifiques différents, à savoir la recherche sur les biomarqueurs du cancer, l'élaboration de politiques de recherche et d'innovation, et l'astrophysique.
Trois messages principaux:
1) Ces dernières années, les efforts de numérisation ont rapidement progressé dans tous les domaines de la connaissance. Toutefois, pour exploiter pleinement le potentiel de la numérisation – en permettant aux experts du domaine d'extraire systématiquement des connaissances et des résultats scientifiques à partir des mégadonnées – nous devons améliorer le partage et l'intégration des données, ainsi que les interfaces conviviales permettant d'interroger ces données.
2) Le projet Bio-SODA a démontré comment rendre interopérables des ensembles de données bioinformatiques issus de domaines traditionnellement distincts de la génomique comparative. Le projet a illustré, par des cas d'utilisation réels, les avantages de l'intégration des données en permettant d’effectuer des requêtes sémantiques plus puissantes qu'auparavant.
3) Bio-SODA a permis dans une large mesure de s’adresser aux bases de données quasiment comme à un être humain en permettant un accès intuitif en langage naturel à des bases de données bioinformatiques complexes, tout en soulignant l’énorme potentiel d'amélioration lorsqu'il s'agit d'exécuter des requêtes complexes dans plusieurs ressources.
Titre original
Bio-SODA: Enabling Complex, Semantic Queries to Bioinformatics Databases through Intuitive Searching over Data

Bases de données bioinformatiques: recherches en langage naturel

Portrait / description du projet (projet de recherche terminé)

Contexte

Objectif

Importance / Application

Résultats

Titre original