Apprentissage statistique pour l'intégration de données omiques

Jérôme J. Mariette

Thèse Année : 2017

Statistical learning for omics data integration

Apprentissage statistique pour l'intégration de données omiques

(1)

Jérôme J. Mariette

Fonction : Auteur
PersonId : 14395
IdHAL : jerome-mariette
ORCID : 0000-0002-6161-4044
IdRef : 232567999

Unité de Mathématiques et Informatique Appliquées de Toulouse

Résumé

The development of high-throughput sequencing technologies has lead to produce high dimensional heterogeneous datasets at different living scales. To process such data, integrative methods have been shown to be relevant, but still remain challenging. This thesis gathers methodological contributions useful to simultaneously explore heterogeneous multi-omics datasets. To tackle this problem, kernels and kernel methods represent a natural framework because they allow to handle the own nature of each datasets while permitting their combination. However, when the number of sample to process is high, kernel methods suffer from several drawbacks: their complexity is increased and the interpretability of the model is lost. A first part of my work is focused on the adaptation of two exploratory kernel methods: the principal component analysis (K-PCA) and the self-organizing map (K-SOM). The proposed adaptations first address the scaling problem of both K-SOM and K-PCA to omics datasets and second improve the interpretability of the models. In a second part, I was interested in multiple kernel learning to combine multiple omics datasets. The proposed methods efficiency is highlighted in the domain of microbial ecology: eight TARA oceans datasets are integrated and analysed using a K-PCA.

Les avancées des nouvelles techniques de séquençage ont permis de produire des données hétérogènes, volumineuse, de grande dimension et à différentes échelles du vivant. L'intégration de ces différentes données représente un défi en biologie des systèmes, défi qu'il est critique d'aborder pour tirer le meilleur parti possible de l'accumulation d'informations biologiques pour leur interprétation et leur exploitation dans un but finalisé. Cette thèse regroupe plusieurs contributions méthodologiques utiles à l'exploration simultanée de plusieurs jeux de données omiques de natures hétérogènes. Pour aborder cette question, les noyaux et les méthodes à noyaux offrent un cadre naturel, car ils permettent de prendre en compte la nature propre de chacun des tableaux de données tout en permettant leur combinaison. Toutefois, lorsque le nombre d'observations à traiter est grand, les méthodes à noyaux souffrent d'un manque d'interprétabilité et d'une grande complexité algorithmique. Une première partie de mon travail a porté sur l'adaptation de deux méthodes exploratoires à noyaux : l'analyse en composantes principales (K-PCA) et les cartes auto- organisatrices (K-SOM). Les adaptations développées portent d'une part sur le passage à l'échelle du K-SOM et de la K-PCA au domaine des omiques et d'autre part sur l'amélioration de l'interprétabilité des résultats. Dans une seconde partie, je me suis intéressé à l'apprentissage multi-noyaux pour combiner plusieurs jeux de données omiques. L'efficacité des méthodes proposées est illustrée dans le contexte de l'écologie microbienne : huit jeux de données du projet TARA oceans ont été intégrés et analysés à l'aide d'une K-PCA.

Mots clés

Omcis data Data integration Kernel PCA Auto-organized maps

Données omiques Intégration de données Noyaux ACP Cartes auto-organisatrices

Domaines

Statistiques [math.ST]

Fichier principal

2017TOU30276b.pdf (7.1 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

ABES STAR : Contact

https://theses.hal.science/tel-01666744

Soumis le : jeudi 6 décembre 2018-11:35:07

Dernière modification le : jeudi 14 mars 2024-03:12:33

Dates et versions

tel-01666744 , version 1 (18-12-2017)

tel-01666744 , version 2 (20-12-2017)

tel-01666744 , version 3 (06-12-2018)

Identifiants

HAL Id : tel-01666744 , version 3
PRODINRA : 466831

Citer

Jérôme J. Mariette. Apprentissage statistique pour l'intégration de données omiques. Statistiques [math.ST]. Université Paul Sabatier - Toulouse III, 2017. Français. ⟨NNT : 2017TOU30276⟩. ⟨tel-01666744v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRA INRAE INRAEOCCITANIETOULOUSE MATHNUM MIAT

825 Consultations

832 Téléchargements

Statistical learning for omics data integration

Apprentissage statistique pour l'intégration de données omiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager