Exploitation des graphes de connaissance pour dynamiser la recherche translationnelle chez les protéagineux
Résumé
Les légumineuses à graines sont un levier essentiel pour fournir des protéines végétales de haute qualité, relever les défis d'une population mondiale croissante et promouvoir la santé globale des humains, des animaux et de l'environnement. Nombreuses, ces espèces sont étroitement liées phylogénétiquement et sont très similaires des points de vue génétique-génomique. Elles sont aussi pour certaines sujettes aux mêmes facteurs limitants affectant leurs rendements. Grâce à la recherche translationnelle, la quantité croissante de données génétiques et -omiques disponibles peut être utilisée pour transférer les connaissances entre les espèces de légumineuses et accélérer l'amélioration des cultures. Pour faciliter ce processus de recherche translationnelle, j’ai développé deux pipelines bioinformatiques, à savoir un pipeline dit « structurel » et un pipeline dit « fonctionnel », afin de créer une base de données graphique NoSQL (Neo4j) permettant d'intégrer et d'interroger des données hétérogènes provenant de plusieurs espèces. Le pipeline structurel identifie les gènes orthologues et les régions chromosomiques synténiques afin de mettre en évidence les orthologues fonctionnels qui vont servir de ponts entre les espèces pour le transfert de connaissances. Le pipeline fonctionnel intègre des informations biologiques, publiques et/ou privées, y compris des loci de caractères quantitatifs (QTL) et des ensembles de données RNA-seq annotés avec des ontologies, et utilise les résultats du pipeline structurel pour relier les orthologues dans la base de données. Pour explorer les possibilités offertes par un tel outil, Ortho_KB a été récemment peuplé pour obtenir OrthoLegKB, une instance dédiée aux légumineuses. Je présenterai comment OrthoLegKB peut être simplement interrogée pour étudier, par exemple, la conservation des gènes au sein des légumineuses. La façon de procéder pour requêter l'orthologie et la synténie, les annotations fonctionnelles, l'information génétique et les profils d'expression des gènes sera illustrée.