Development of a modular pipeline for a shared SLURM cluster, suited for genome polymorphism analysis: application on plant tGBS
Développement d’un pipeline modulaire pour un cluster SLURM partagé adapté à l’analyse du polymorphisme des génomes : Application au tGBS chez les végétaux
Résumé
Recent upcoming of new sequencing technologies led to the development of
bioinformatics analysis pipelines required to handle this flow of genomic data. Pipeline
frameworks allow for automation of these processes, often at the cost of accessibility or
analysis flexibility, and are not always adapted. This internship aimed to automate an alignment
and variant-calling pipeline for targeted genotyping-by-sequencing (tGBS) data developed by
a sequencing facility, in a shared SLURM cluster environment. Simple Targeted GBS
Automated and Modular Pipeline for SLURM (STAMPS) is an analysis pipeline written in
python and BASH, designed to optimize the usage of the computing resources in conformation
with the constraints. It aims to be a modular and flexible framework, shining where the
commonly available frameworks are limited. With only a short training, non-bioinformaticians
can quickly get used to it, even without advanced informatic skills. Despite being originally
designed as a variant calling pipeline for tGBS data, STAMPS is a generalist framework,
adaptable to any type of analysis
L'émergence des nouvelles technologies de séquençage entraîne un développement des
pipelines d'analyses bioinformatiques nécessaires pour traiter ce flot de données génomiques.
Les cadres de pipelines permettent une automatisation des processus, souvent au détriment de
l'accessibilité ou de la flexibilité des analyses, et ne sont pas adaptés à toutes les situations. Il
s'agit dans le cadre de ce stage d'automatiser un pipeline d'alignement et d'appel de variants sur
des données de génotypage ciblé par séquençage (tGBS), à destination d'une plateforme de
séquençage dans un environnement de cluster SLURM partagé. Simple Targeted GBS
Automated and Modular Pipeline for SLURM (STAMPS) est un pipeline d'analyse écrit en
python et BASH pensé pour être en adéquation avec les contraintes et ressources informatiques
disponibles, tout en optimisant leur usage. Il se veut être un cadre modulaire et flexible brillant
dans une situation où les frameworks classiques se retrouvent limités. Avec une formation
minimale, il peut être rapidement pris en main par des non-bioinformaticiens sans compétences
informatiques avancées. Bien qu'il ait été créé pour réaliser de l'appel de variants sur des
données de tGBS, ce STAMPS se veut être généraliste et adaptable à tout type d’analyse.
Origine | Fichiers produits par l'(les) auteur(s) |
---|---|
Licence |