Développement d’un pipeline modulaire pour un cluster SLURM partagé adapté à l’analyse du polymorphisme des génomes : Application au tGBS chez les végétaux - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Access content directly
Master Thesis Year : 2022

Development of a modular pipeline for a shared SLURM cluster, suited for genome polymorphism analysis: application on plant tGBS

Développement d’un pipeline modulaire pour un cluster SLURM partagé adapté à l’analyse du polymorphisme des génomes : Application au tGBS chez les végétaux

Abstract

Recent upcoming of new sequencing technologies led to the development of bioinformatics analysis pipelines required to handle this flow of genomic data. Pipeline frameworks allow for automation of these processes, often at the cost of accessibility or analysis flexibility, and are not always adapted. This internship aimed to automate an alignment and variant-calling pipeline for targeted genotyping-by-sequencing (tGBS) data developed by a sequencing facility, in a shared SLURM cluster environment. Simple Targeted GBS Automated and Modular Pipeline for SLURM (STAMPS) is an analysis pipeline written in python and BASH, designed to optimize the usage of the computing resources in conformation with the constraints. It aims to be a modular and flexible framework, shining where the commonly available frameworks are limited. With only a short training, non-bioinformaticians can quickly get used to it, even without advanced informatic skills. Despite being originally designed as a variant calling pipeline for tGBS data, STAMPS is a generalist framework, adaptable to any type of analysis
L'émergence des nouvelles technologies de séquençage entraîne un développement des pipelines d'analyses bioinformatiques nécessaires pour traiter ce flot de données génomiques. Les cadres de pipelines permettent une automatisation des processus, souvent au détriment de l'accessibilité ou de la flexibilité des analyses, et ne sont pas adaptés à toutes les situations. Il s'agit dans le cadre de ce stage d'automatiser un pipeline d'alignement et d'appel de variants sur des données de génotypage ciblé par séquençage (tGBS), à destination d'une plateforme de séquençage dans un environnement de cluster SLURM partagé. Simple Targeted GBS Automated and Modular Pipeline for SLURM (STAMPS) est un pipeline d'analyse écrit en python et BASH pensé pour être en adéquation avec les contraintes et ressources informatiques disponibles, tout en optimisant leur usage. Il se veut être un cadre modulaire et flexible brillant dans une situation où les frameworks classiques se retrouvent limités. Avec une formation minimale, il peut être rapidement pris en main par des non-bioinformaticiens sans compétences informatiques avancées. Bien qu'il ait été créé pour réaliser de l'appel de variants sur des données de tGBS, ce STAMPS se veut être généraliste et adaptable à tout type d’analyse.
Fichier principal
Vignette du fichier
2022_EPGV_STAMPS_rapportM1.pdf (1.37 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Licence : CC BY NC ND - Attribution - NonCommercial - NoDerivatives

Dates and versions

hal-03963238 , version 1 (30-01-2023)

Licence

Attribution - NonCommercial - NoDerivatives

Identifiers

  • HAL Id : hal-03963238 , version 1

Cite

Benjamin Loire. Développement d’un pipeline modulaire pour un cluster SLURM partagé adapté à l’analyse du polymorphisme des génomes : Application au tGBS chez les végétaux. Informatique [cs]. 2022. ⟨hal-03963238⟩
10 View
66 Download

Share

Gmail Facebook X LinkedIn More