« ArthropodaCyc » : une collection de bases de données enrichies à l’aide de CycADS pour étudier et comparer le métabolisme des arthropodes.
Résumé
« ArthropodaCyc » : une collection de bases de données enrichies à l’aide de CycADS pour étudier et comparer le métabolisme des arthropodes.
Patrice Baa-Puyoulet1, Augusto F. Vellozo2,3, Jaime Huerta-Cepas4, Gérard Febvay1, Federica Calevro1, Toni Gabaldon4, Marie-France Sagot2,3, Hubert Charles1,3 et Stefano Colella1,*.
1 UMR203 BF2I, Biologie Fonctionnelle Insectes et Interactions, INRA, INSA-Lyon, Université de Lyon, Villeurbanne, France; 2 Université Lyon 1, CNRS, UMR5558, Laboratoire de Biométrie et Biologie Evolutive, Villeurbanne, France; 3 BAMBOO, INRIA Rhône-Alpes, France; 4 Center for Genomic Regulation, Barcelona, Spain ; * contact : Stefano.Colella@lyon.inra.fr
Après la publication de plusieurs génomes d’arthropodes, de nombreuses autres espèces vont être séquencées dans un futur proche, en particulier à travers l’initiative i5ki. La disponibilité de ces multiples séquences ouvre la voie à des études comparatives entre espèces afin de mieux comprendre les différents aspects de la biologie des arthropodes. Ces études nécessitent l’intégration des données génomiques et fonctionnelles en évolution constante : les séquences génomiques et l’annotation fonctionnelle des protéines devant être collectées de sources et méthodes variées et mises à jour régulièrement.
Durant l’annotation du génome du puceron du pois (Acyrthosiphon pisum) nous avons développé CycADSii (Cyc Annotation Database System), un système de gestion d’annotations automatisé permettant l’intégration des informations qui sont utilisées pour la reconstruction des réseaux métaboliques. Les données issues de Genbank et/ou de bases de données génomiques spécifiques, ainsi que les annotations fonctionnelles obtenues par les méthodes KAAS-KEGG, PRIAM, Blast2GO, PhylomeDB et MetaPhOrs, sont collectées dans CycADS. Ces annotations sont ensuite extraites, avec possibilité d’appliquer différents filtres de qualité, pour produire les fichiers d’entrée de PathwayTools, un logiciel qui génère et/ou met à jour des bases de données métaboliques de type BioCyc. Nous avons utilisé CycADS pour créer ArthropodaCyciii, une collection de bases de données métaboliques qui, à ce jour, contient 22 arthropodes: [Arachnida] Ixodes scapularis ; [Coleoptera] Tribolium castaneum ; [Crustacea] Daphnia pulex ; [Diptera] Aedes aegypti, Anopheles gambiae, Culex quinquefasciatus, Drosophila melanogaster, Glossina morsitans ; [Hemiptera] Acyrthosiphon pisum, Rhodnius prolixus ; [Hymenoptera] Apis mellifera, Nasonia vitripennis, Atta cephalotes, Acromyrmex echinatior, Camponotus floridanus, Harpegnathos saltator, Linepithema humile, Pogonomyrmex barbatus, Solenopsis invicta, [Lepidoptera] Danaus plexippus, Heliconius melpomene ; [Phthiraptera] Pediculus humanus. Dans ces bases, nous avons ajouté de nombreux liens externes vers les données génomiques de chaque organisme (AphidBase, BeetleBase, VectorBase, Hymenoptera Genome, FlyBase, wFleaBase, MonarchBase, ButterflyGenome) et d’annotation fonctionnelle (Brenda-Enzyme, Gene Ontology, KEGG Orthology et PhylomeDB). Notre collection de bases métaboliques permet alors de réaliser des analyses comparatives en utilisant les fonctionnalités web interactives d’ArthropodaCyc.
Dans le futur, nous prévoyons d’ajouter l’annotation métabolique d’autres génomes en cours de séquençage et d’implémenter des passerelles vers des outils d’analyses de réseaux (tels que MetExplore). Nous sommes aussi ouverts à des collaborations sur des projets de séquençage d’arthropodes en cours, pour participer à la première annotation fonctionnelle des protéines et réaliser la reconstruction de leur métabolisme.
i http://arthropodgenomes.org/wiki/i5K ii http://www4.inra.fr/cycads/
iii http://arthropodacyc.cycadsys.org/