Process segmentation/clustering. Application to the analysis of CGH microarray data.

Franck Picard

Thèse Année : 2005

Process segmentation/clustering. Application to the analysis of CGH microarray data.

Segmentation/classification de processus. Application a l'analyse de donnees de microarrays CGH.

(1)

Franck Picard

Fonction : Auteur
PersonId : 178350
IdHAL : franck-picard
ORCID : 0000-0001-8084-5481
IdRef : 094626685

Mathématiques et Informatique Appliquées

Résumé

This thesis is devoted to the development of a new statistical model for segmentation/clustering problems. The objective is to partition the data into homogeneous regions and to cluster these regions into a finite number of groups. Segmentation/clustering problems are traditionally studied with hidden Markov models. We propose an alternative model which combines segmentation models and mixture models.

We construct our model in the Gaussian case and we propose a generalization to discrete dependent variables. The parameters of the model are estimated by maximum likelihood with a hybrid algorithm based on dynamic programming and on the EM algorithm. We study a new model selection problem which is the simultaneous selection of the number of clusters and of the number of segments. We propose a heuristic for this choice.

Our model is applied to the analysis of CGH microarray data (Comparative Genomic Hybridization). This technique is used to measure the number of thousands of genes on the genome in one experiment. Our method allows us to localize deleted or amplified regions along chromosomes. We also propose an application to the analysis of DNA sequences for the identification of homogeneous regions in terms of nucleotide composition.

Dans cette thèse nous proposons un nouveau modèle statistique pour l'analyse des problèmes de segmentation/classification dont l'objectif
est de partitionner des données en zones homogènes, et de regrouper ces zones en un nombre fini de classes. Les problèmes de segmentation/classification sont traditionnellement étudiés à l'aide
des modèles de chaînes de Markov cachées. Nous proposons un modèle alternatif qui combine un modèle de segmentation et un modèle de mélange.

Nous construisons notre modèle dans le cas gaussien et nous proposons une généralisation à des variables discrètes dépendantes. Les paramètres de ce modèle sont estimés par maximum de vraisemblance à l'aide d'un algorithme hybride fondé sur la programmation dynamique et sur l'algorithme EM. Nous abordons un nouveau problème de sélection de modèle qui est la sélection simultanée du nombre de groupes et du nombre de segments et proposons une heuristique pour ce choix.

Notre modèle est appliqué à l'analyse de données issues d'une nouvelle technologie, les microarrays CGH (Comparative Genomic Hybridization). Cette technique permet de compter le nombre de milliers de gènes le long du génome en une seule expérience. L'application de notre méthode à ces données permet de localiser des zones délétées ou amplifiées le long des chromosomes. Nous proposons également une application à l'analyse des séquences d'ADN pour l'identification de régions homogènes en terme de composition en nucléotides.

Mots clés

breakpoint detection mixture models model selection dynamic programming EM algorithm CGH microarrays DNA sequences

détection de ruptures modèles de mélange sélection de modèles programmation dynamique algorithme EM microarray CGH sequences d'ADN

Domaines

Mathématiques [math] Sciences du Vivant [q-bio]

Fichier principal

FranckThese.pdf (14.17 Mo)

Franck Picard : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00116025

Soumis le : vendredi 24 novembre 2006-13:33:10

Dernière modification le : jeudi 14 mars 2024-03:08:24

Archivage à long terme le : jeudi 20 septembre 2012-15:00:54

Dates et versions

tel-00116025 , version 1 (24-11-2006)

Identifiants

HAL Id : tel-00116025 , version 1
PRODINRA : 252126

Citer

Franck Picard. Process segmentation/clustering. Application to the analysis of CGH microarray data.. Mathematics [math]. Université Paris Sud - Paris XI, 2005. English. ⟨NNT : ⟩. ⟨tel-00116025⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH INRA MIA-PARIS INRAE MATHNUM

292 Consultations

106 Téléchargements

Process segmentation/clustering. Application to the analysis of CGH microarray data.

Segmentation/classification de processus. Application a l'analyse de donnees de microarrays CGH.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager