Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN

Le Barcode ADN a pour but d’assigner des individus à des espèces données à partir de leur séquence ADN situé à un locus (en général une partie du gène mitochondrial COI). Dans ce contexte, nous avons d’abord étudié deux types d’approches : (i) des méthodes phylogénétiques (Neighbour Joining et PhyML) qui, pour assigner, reconstruisent les généalogies à partir de l’évolution de l’ADN ; (ii) des méthodes statistiques de classification supervisée qui, à partir de la variabilité observée dans la famille étudiée, construisent un algorithme d’assignation à des espèces de la famille (k-Nearest Neighbour, CART, Random Forest, méthodes à noyaux ou SVM). Nous avons étudié la capacité de ces méthodes à classer correctement des séquences tirées au hasard parmi un ensemble d’espèces voisines. Les jeux de données utilisés ont été obtenus par simulations ou proviennent de données réelles issues du domaine public (Astraptes, Cowries, Papillons d’Amazonie). Les autres données ont été obtenues en simulant des arbres de coalescence où nous avons fait varier l’histoire généalogique, les paramètres de mutation, le nombre d’individus échantillonnés par espèce et le nombre total d’espèces. Partant du constat que la méthode k-NN était relativement satisfaisante, nous étudions des méthodes bayésiennes qui, tout en gardant la simplicité de l'algorithme,k-NN améliorent ses performances. Parallèlement, à partir de méthodes statistiques pour les graphes et les réseaux, nous avons étudié les liaisons entre des populations géographiquement réparties (données Praomys, IFORA). Les méthodes précédentes supposent connue l’assignation d’un certain nombre de séquences. Un troisième axe de notre travail est de ne plus supposer cette connaissance préalable. Nous développons des algorithmes de classifications non supervisées par réseaux de neurones qui sont adaptés aux données du Barcode et permettent d’obtenir simultanément une représentation de la proximité des espèces.

Domaines

Mathématiques [math] Informatique [cs]

Fichier principal

Colloque_IFORA_juin2010_1.pdf (1.43 Mo)

Origine	Fichiers produits par l'(les) auteur(s)

Migration ProdInra : Connectez-vous pour contacter le contributeur

https://hal.inrae.fr/hal-02754486

Soumis le : mercredi 3 juin 2020-20:43:37

Dernière modification le : mercredi 12 juin 2024-11:06:12

Archivage à long terme le : jeudi 3 décembre 2020-10:28:35

Dates et versions

hal-02754486 , version 1 (03-06-2020)

Identifiants

HAL Id : hal-02754486 , version 1
PRODINRA : 181145

Citer

Catherine Laredo, Brigitte Schaeffer, Nicolas Vergne, Olivier David, Frédéric Austerlitz, et al.. Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN. Projet IFORA, Jun 2010, Montpellier, France. pp.45. ⟨hal-02754486⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENSMP AGROPARISTECH CNRS INRA PARISTECH ESE PSL UNIV-PARIS-SACLAY INRAE MATHNUM

30 Consultations

19 Téléchargements