Mémoire D'étudiant Année : 2023

Bioinformatics analysis of RNA-seq data from natural black poplar populations

Analyse bio-informatique de données issues de RNA-seq de populations naturelles de peupliers noirs

Résumé

The scientific background to this project highlights the importance of forests in the environment, particularly their role in the water cycle, soil preservation and carbon storage for climate regulation. The black poplar is used as a study model because of its ease of cultivation, its capacity to produce wood and its ecological interest as a bio-indicator species. The EPITREE project aims to study transcriptomic expression profiles in two specific wood tissues. A bioinformatics pipeline is set up to analyse the RNA-seq data and quantify the abundance of transcripts. The study of gene expression in black poplar will enable us to gain a deeper understanding of its genetic diversity within different populations. The choice of tools for this study was based on criteria such as their frequency of mention in the scientific literature and evaluation tests, particularly in terms of percentage of alignment. For the nf-core/rnaseq pipeline, the choice of tools was more limited due to time constraints, which led to the selection of the most representative test samples. The quality checks carried out on the 461 samples showed good overall data quality, with Phred scores above 30. However, quality control analysis revealed differences between some replicates, probably due to environmental factors such as position on the plot, soil, harvesting period. To gain a better understanding of these variations, a more in-depth biostatistical study will be required.
Le contexte scientifique de ce projet souligne l'importance des forêts dans l'environnement, particulièrement leur rôle dans le cycle de l'eau, la préservation des sols et le stockage du carbone pour la régulation du climat. Le peuplier noir est utilisé comme modèle d'étude de par sa facilité de culture, sa capacité à produire du bois et son intérêt écologique en tant qu'espèce bio-indicatrice. Le projet de recherche dont s'inscrit mon stage, vise à étudier les profils d'expression transcriptomique dans un tissu spécifique du bois. Un pipeline bio-informatique est mis en place pour analyser les données de RNA-seq et quantifier l'abondance des transcrits. L'étude sur l'expression des gènes dans le peuplier noir permet d’approfondir notre compréhension de sa diversité génétique au sein des différentes populations naturelles. Le choix des outils pour cette étude a été basé sur des critères tels que leur fréquence de mention dans la littérature scientifique et des tests d'évaluation, notamment en termes de pourcentage d'alignement. Pour le pipeline nf-core/rnaseq, le choix des outils était plus restreint en raison de contraintes de temps, ce qui a motivé la sélection des échantillons de test les plus représentatifs. Les contrôles qualité effectués sur les 461 échantillons ont montré une bonne qualité globale des données, avec des scores de Phred supérieurs à 30. Cependant, l'analyse du contrôle qualité a révélé des différences entre certains réplicats, probablement dues à des facteurs environnementaux tels que la position sur la parcelle, le sol, la période de récolte. Pour mieux comprendre ces variations, une étude biostatistique plus approfondie sera nécessaire afin d'obtenir des réponses.
Fichier principal
Vignette du fichier
rapport_final_M1_Alae-Eddine_LEKCHIRI.pdf (1.08 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
Licence

Dates et versions

hal-04659899 , version 1 (23-07-2024)

Licence

Identifiants

  • HAL Id : hal-04659899 , version 1

Citer

Alae Eddine Lekchiri. Analyse bio-informatique de données issues de RNA-seq de populations naturelles de peupliers noirs. Bio-informatique [q-bio.QM]. 2023. ⟨hal-04659899⟩
172 Consultations
19 Téléchargements

Partager

More