Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN

Résumé

Le Barcode ADN a pour but d’assigner des individus à des espèces données à partir de leur séquence ADN situé à un locus (en général une partie du gène mitochondrial COI). Dans ce contexte, nous avons d’abord étudié deux types d’approches : (i) des méthodes phylogénétiques (Neighbour Joining et PhyML) qui, pour assigner, reconstruisent les généalogies à partir de l’évolution de l’ADN ; (ii) des méthodes statistiques de classification supervisée qui, à partir de la variabilité observée dans la famille étudiée, construisent un algorithme d’assignation à des espèces de la famille (k-Nearest Neighbour, CART, Random Forest, méthodes à noyaux ou SVM). Nous avons étudié la capacité de ces méthodes à classer correctement des séquences tirées au hasard parmi un ensemble d’espèces voisines. Les jeux de données utilisés ont été obtenus par simulations ou proviennent de données réelles issues du domaine public (Astraptes, Cowries, Papillons d’Amazonie). Les autres données ont été obtenues en simulant des arbres de coalescence où nous avons fait varier l’histoire généalogique, les paramètres de mutation, le nombre d’individus échantillonnés par espèce et le nombre total d’espèces. Partant du constat que la méthode k-NN était relativement satisfaisante, nous étudions des méthodes bayésiennes qui, tout en gardant la simplicité de l'algorithme,k-NN améliorent ses performances. Parallèlement, à partir de méthodes statistiques pour les graphes et les réseaux, nous avons étudié les liaisons entre des populations géographiquement réparties (données Praomys, IFORA). Les méthodes précédentes supposent connue l’assignation d’un certain nombre de séquences. Un troisième axe de notre travail est de ne plus supposer cette connaissance préalable. Nous développons des algorithmes de classifications non supervisées par réseaux de neurones qui sont adaptés aux données du Barcode et permettent d’obtenir simultanément une représentation de la proximité des espèces.
Fichier principal
Vignette du fichier
Colloque_IFORA_juin2010_1.pdf (1.43 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02754486 , version 1 (03-06-2020)

Identifiants

  • HAL Id : hal-02754486 , version 1
  • PRODINRA : 181145

Citer

Catherine Laredo, Brigitte Schaeffer, Nicolas Vergne, Olivier David, Frédéric Austerlitz, et al.. Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN. Projet IFORA, Jun 2010, Montpellier, France. pp.45. ⟨hal-02754486⟩
30 Consultations
19 Téléchargements

Partager

Gmail Facebook X LinkedIn More