Des séquences moléculaires à l’arbre de la vie : résultats théoriques, algorithmes et outils pour la phylogénomique - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Access content directly
Habilitation À Diriger Des Recherches Year : 2010

Des séquences moléculaires à l’arbre de la vie : résultats théoriques, algorithmes et outils pour la phylogénomique

Abstract

La phylogénie moléculaire est un champ de recherche qui étudie l’histoire évolutive d’espèces à partir de séquences moléculaires issues de leurs génomes. Les progrès technologiques nous permettent désormais d’avoir facilement accès aux génomes complets d’un nombre toujours plus grand d’espèces. On parle maintenant de “phylogénomique” pour désigner les études phylogénétiques qui se basent sur l’analyse de génomes complets. Parallèlement, le nombre d’espèces étudiées augmente lui aussi très rapidement, le but en ligne de mire (même si on le sait inatteignable) étant de proposer la phylogénie de l’ensemble des êtres vivants : “l’Arbre de la Vie”. Cet objectif est avant tout un défi intellectuel qui reflète l’envie intarissable de l’homme de connaître et de comprendre le monde qui l’entoure. Mais cette connaissance, toujours meilleure, de l’Arbre de la Vie est également un outil clef pour mieux protéger ce monde fragile. En effet, la préservation des espèces est un enjeu majeur de notre siècle. La phylogénie moléculaire fournit un cadre théorique permettant une définition formelle de la notion, souvent floue, de biodiversité. L’obtention d’un Arbre de la Vie (même partiel) est donc un outil précieux qui permet de définir de manière objective les espèces (ou les zones) à protéger prioritairement. L’obtention d’alignements de séquences orthologues est l’une des premières étapes de nombreuses analyses moléculaires et phylogénétiques. La qualité de cette étape est primordiale et conditionne, en partie, la validité des résultats obtenus ultérieurement sur la base de ces données. Ceci explique que nous ayons mené un effort particulier pour constituer la base de données OrthoMaM qui propose un ensemble de marqueurs phylogénétiques conservés en simple copie à l’échelle des mammifères. Nous avons également proposé un algorithme, basé sur une approche de programmation dynamique, qui permet d’aligner des séquences nucléotidiques codantes, en prenant en compte à la fois leurs traductions en acides aminés et la possibilité de changements de cadre de lecture. Sur la base d’un alignement des séquences orthologues d’un gène, on peut inférer son histoire évolutive. On utilise généralement plusieurs de ces histoires pour inférer l’arbre des espèces. Les méthodes de super-arbre permettent de combiner des phylogénies partielles (aussi appelés arbres sources) en une seule phylogénie plus large offrant une synthèse des différents arbres sources. L’une des difficultés inhérentes aux méthodes de super-arbre est l’utilisation d’arbres sources incongruents, c’est à-dire en désaccord sur la position phylogénétique de certaines espèces. Parce qu’elles permettent de combiner des arbres en une phylogénie toujours plus grande, les méthodes de super-arbre font partie des outils clefs pour assembler l’Arbre de la Vie. Nous avons formalisé deux propriétés qu’elles devraient respecter dans ce contexte. La première assure que toute information du super-arbre est présente (ou induite) par les arbres sources ; tandis que la seconde assure que le super-arbre ne contredit aucune des informations présentes (ou induites) par les arbres sources. Après avoir montré l’intérêt de ces propriétés enles comparant à d’autres, nous avons proposé une méthode de super-arbre, PhySIC_IST, qui les respecte. De plus, en introduisant un pré-traitement statistique (STC) qui élimine les résolutions minoritaires des arbres sources, nous avons généré toute une graduation de méthodes de super-arbre (STC + PhySIC_IST)qui, selon le paramètre STC utilisé, sont plus ou moins stringeantes sur les critères requis pour qu’une information soit présente dans le super-arbre. Au cours de l’évolution, il est fréquent que des gènes soient dupliqués ou perdus au sein d’un génome. Il arrive également qu’il y ait un transfert de patrimoine génétique entre deux espèces contemporaines vivant dans un même environnement. Ces évènements engendrent des différences entre l’histoire des espèces(ou arbre des espèces) et celle d’un gène les ayant subits (ou arbre de gènes). De plus, une espèce peut alors étiqueter plusieurs feuilles d’un arbre de gènes ce qui le rend inutilisable par les approches classiques de super-arbres. Nos travaux permettent d’intégrer le signal phylogénétique de tels arbres dans une analyse de type super-arbre visant à inférer l’Arbre de la Vie. Ce travail est l’un des premiers à permettre d’exploiter cette source d’information, qui est pourtant essentielle. Parallèlement nous avons développé un algorithme polynomial efficace pour inférer le scénario le plus parcimonieux (en terme de duplication, perte et transfert) permettant d’expliquer les différences entre un arbre de gènes et un arbre d’espèces. Les travaux décrits dans ce manuscrit vont de l’informatique théorique à l’étude de données biologiques en passant par le développement de logiciels et de services Web. Cependant, ils s’inscrivent tous dans une perspective à long terme qui vise à obtenir, à partir des génomes actuels, un Arbre de la Vie fiable, complet et annoté.
Fichier principal
Vignette du fichier
Publis010-diapc-052_Ranwez_HDR_Séquences moléculaires arbre de vie_1.pdf (15.92 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

tel-02824963 , version 1 (06-06-2020)

Identifiers

  • HAL Id : tel-02824963 , version 1
  • PRODINRA : 184459

Cite

Vincent Ranwez. Des séquences moléculaires à l’arbre de la vie : résultats théoriques, algorithmes et outils pour la phylogénomique : Résultats théoriques, algorithmes et outils pour la phylogénomique. Sciences du Vivant [q-bio]. Université Montpellier 2 (Sciences et Techniques), 2010. ⟨tel-02824963⟩
36 View
3 Download

Share

Gmail Facebook X LinkedIn More