Automatic learning of interaction networks from next-generation sequence data
Apprentissage automatique des réseaux d'interaction à partir des données de séquence next-génération
Résumé
Climate change and other human-induced processes are modifying ecosystems, globally, at an ever increasing rate. Microbial communities play an important role in the functioning ecosystems, maintaining their diversity and services. These communities are shaped by the different abiotic environmental effects to which they are subjected and the biotic interactions between all community members. The ANR Next-Generation Biomonitoring (NGB) project proposed to reconstruct interaction networks from abundance measures obtained sequencing environmental DNA (eDNA) and to use these networks to monitor ecosystem change. In this thesis, conducted as part of the NGB project, I evaluate the potential of two existing statistical network reconstruction tools, SparCC and SPIEC-EASI, to reconstruct microbial networks in order to evaluate ecosystem change. Microbial communities from grapevine leaves were used to differentiate between two different agricultural practices, identifying the appropriate network metrics to capture ecosystem change. The experiments showed that although it is difficult to obtain replicate networks, even from the same environmental conditions, it is still possible to differentiate networks from different agricultural practices using some network metrics. Although statistically-based network reconstruction tools can obtain networks of associations between microorganisms, with accuracy, these statistical associations are not direct indicators of the underlying ecological processes of interaction. To address this issue, I developed a new network reconstruction tool called Interaction Inference using Explainable Machine Learning (InfIntE), based upon Explainable Machine Learning (EML). EML is a branch of machine learning which uses the prior knowledge from a scientific domain, such as Ecology, to declare logical statements of concept (hypotheses) to carry out human-understandable inference. InfIntE uses ecological rules of interaction together with the abundance information obtained from sequencing eDNA to reconstruct networks by logical inference. In contrast to statistically-based network reconstruction, the use of interaction rules allows direct classification the inferred interactions to their type (e.g. mutualism, competition), obtaining more informative and objective interaction networks. The performance of InfIntE was evaluated using computer-generated data as well as datasets obtained by eDNA sampling of grapevine leaf microbiome. My results show that InfIntE can detect interaction networks with similar accuracy to the tested statistically-based tools, SparCC and SPIEC-EASI, with the significant benefit of direct classification of the type of each interaction.
Le changement climatique et d'autres processus induits par l'homme modifient les écosystèmes, à l'échelle mondiale, à un rythme toujours plus rapide. Les communautés microbiennes jouent un rôle important dans le fonctionnement des écosystèmes, en maintenant leur diversité et leurs services. Ces communautés sont façonnées par les différents effets environnementaux abiotiques auxquels elles sont soumises et par les interactions biotiques entre tous les membres de la communauté. Le projet ANR Next-Generation Biomonitoring (NGB) a proposé de reconstruire des réseaux d'interactions à partir de mesures d'abondance obtenues par séquençage de l'ADN environnemental (eDNA) et d'utiliser ces réseaux pour suivre l'évolution des écosystèmes. Dans cette thèse, menée dans le cadre du projet NGB, j'évalue le potentiel de deux outils de reconstruction de réseaux statistiques existants, SparCC et SPIEC-EASI, pour reconstruire des réseaux microbiens afin d'évaluer le changement des écosystèmes. Les communautés microbiennes des feuilles de vigne ont été utilisées pour différencier deux pratiques agricoles différentes, en identifiant les métriques de réseau appropriées pour capturer le changement d'écosystème. Les expériences ont montré que, bien qu'il soit difficile d'obtenir des réseaux répliqués, même dans les mêmes conditions environnementales, il est toujours possible de différencier les réseaux de différentes pratiques agricoles en utilisant certaines métriques de réseau. Bien que les outils de reconstruction de réseaux basés sur des statistiques puissent obtenir des réseaux d'associations entre micro-organismes, avec précision, ces associations statistiques ne sont pas des indicateurs directs des processus écologiques d'interaction sous-jacents. Pour résoudre ce problème, j'ai développé un nouvel outil de reconstruction de réseau appelé Interaction Inference using Explainable Machine Learning (InfIntE), basé sur Explainable Machine Learning (EML). L'EML est une branche de l'apprentissage automatique qui utilise les connaissances préalables d'un domaine scientifique, tel que l'écologie, pour déclarer des énoncés logiques de concepts (hypothèses) afin de réaliser des inférences compréhensibles par l'homme. InfIntE utilise les règles d'interaction écologiques ainsi que les informations sur l'abondance obtenues par le séquençage de l'eDNA pour reconstruire des réseaux par inférence logique. Contrairement à la reconstruction de réseaux basée sur des méthodes statistiques, l'utilisation de règles d'interaction permet de classer directement les interactions déduites selon leur type (par exemple, mutualisme, compétition), ce qui permet d'obtenir des réseaux d'interaction plus informatifs et objectifs. La performance d'InfIntE a été évaluée en utilisant des données générées par ordinateur ainsi que des ensembles de données obtenus par échantillonnage d'eDNA du microbiome des feuilles de vigne. Mes résultats montrent qu'InfIntE peut détecter des réseaux d'interaction avec une précision similaire à celle des outils statistiques testés, SparCC et SPIEC-EASI, avec l'avantage significatif de la classification directe du type de chaque interaction.
Origine | Version validée par le jury (STAR) |
---|