Skip to Main content Skip to Navigation
New interface
Conference papers

Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN

Résumé : Le Barcode ADN a pour but d’assigner des individus à des espèces données à partir de leur séquence ADN situé à un locus (en général une partie du gène mitochondrial COI). Dans ce contexte, nous avons d’abord étudié deux types d’approches : (i) des méthodes phylogénétiques (Neighbour Joining et PhyML) qui, pour assigner, reconstruisent les généalogies à partir de l’évolution de l’ADN ; (ii) des méthodes statistiques de classification supervisée qui, à partir de la variabilité observée dans la famille étudiée, construisent un algorithme d’assignation à des espèces de la famille (k-Nearest Neighbour, CART, Random Forest, méthodes à noyaux ou SVM). Nous avons étudié la capacité de ces méthodes à classer correctement des séquences tirées au hasard parmi un ensemble d’espèces voisines. Les jeux de données utilisés ont été obtenus par simulations ou proviennent de données réelles issues du domaine public (Astraptes, Cowries, Papillons d’Amazonie). Les autres données ont été obtenues en simulant des arbres de coalescence où nous avons fait varier l’histoire généalogique, les paramètres de mutation, le nombre d’individus échantillonnés par espèce et le nombre total d’espèces. Partant du constat que la méthode k-NN était relativement satisfaisante, nous étudions des méthodes bayésiennes qui, tout en gardant la simplicité de l'algorithme,k-NN améliorent ses performances. Parallèlement, à partir de méthodes statistiques pour les graphes et les réseaux, nous avons étudié les liaisons entre des populations géographiquement réparties (données Praomys, IFORA). Les méthodes précédentes supposent connue l’assignation d’un certain nombre de séquences. Un troisième axe de notre travail est de ne plus supposer cette connaissance préalable. Nous développons des algorithmes de classifications non supervisées par réseaux de neurones qui sont adaptés aux données du Barcode et permettent d’obtenir simultanément une représentation de la proximité des espèces.
Document type :
Conference papers
Complete list of metadata

Cited literature [6 references]  Display  Hide  Download

https://hal.inrae.fr/hal-02754486
Contributor : Migration ProdInra Connect in order to contact the contributor
Submitted on : Wednesday, June 3, 2020 - 8:43:37 PM
Last modification on : Friday, November 18, 2022 - 2:18:13 PM
Long-term archiving on: : Thursday, December 3, 2020 - 10:28:35 AM

File

Colloque_IFORA_juin2010_1.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02754486, version 1
  • PRODINRA : 181145

Citation

Catherine Laredo, Brigitte Schaeffer, Nicolas Vergne, Olivier David, Frédéric Austerlitz, et al.. Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN. Projet IFORA, Jun 2010, Montpellier, France. pp.45. ⟨hal-02754486⟩

Share

Metrics

Record views

24

Files downloads

11