Réduction de la dimension et sélection de modèles en classification supervisée

Tristan Mary-Huard

Thèse Année : 2006

Réduction de la dimension et sélection de modèles en classification supervisée

(1)

Tristan Mary-Huard

Fonction : Auteur
PersonId : 748716
IdHAL : tristanmary-huard
ORCID : 0000-0002-3839-9067
IdRef : 22754093X

Mathématiques et Informatique Appliquées

Résumé

This thesis takes place within the framework of statistical learning. We study the supervised classification problem for large dimension data. The first part of the document presents the state of the art regarding model selection in the Vapnik theory framework and different variable selection approaches in statistical learning. The second part presents some new tools for model selection and dimension reduction. In Chapter 3, we provide an estimator of the bias between the conditional and the training error of a classification rule. This estimator is then used to derive a penalized criterion called Swapping. The penalty is based on the points for which a change of label induces a change of prediction. An application to the choice of k in the kNN algorithm is presented. In Chapter 4, we propose a penalized criterion for variable selection in supervised classi¯cation. This criterion provides a theoretical justi¯cation of the pruning step of the CART algorithm as an embedded variable selection method. The last chapter is dedicated to a general strategy to aggregate variables in view of classification. The reduction dimension method is adapted to the classification algorithm. Applications to functional and microarray data are provided.

La thèse se place dans le contexte de l'apprentissage statistique. On s'intéresse au problème de la classification supervisée des données de grande dimension. Dans un premier temps, nous introduisons les principes de la théorie de Vapnik et de la sélection de modèles, et présentons les grandes familles de méthodes de sélection de variables. Dans un deuxième temps, nous nous proposons de nouveaux outils de sélection de modèles et de réduction de la dimension. Au chapitre 3, nous proposons un estimateur du biais entre le risque conditionnel et le risque empirique d'une règle de classification. Cet estimateur est ensuite utilisé pour l'élaboration d'un critère pénalisé de sélection de modèles appelé Swapping. La pénalité est alors basée sur les seuls points de l'échantillon d'entraînement pour lesquels un changement de label entraîne un changement de prédiction. Les performances pratiques du critère Swapping sont illustrées par l'application à l'algorithme kNN pour le choix du nombre de voisins. Au chapitre 4, nous présentons un critère pénalisé pour la sélection de variables en classification supervisée. La qualité du critère obtenue est garantie par une inégalité oracle. Ce résultat théorique est ensuite utilisée pour justifier la phase d'élagage de l'algorithme CART en tant que méthode intégrée de sélection de variables. Le dernier chapitre est consacré à l'agrégation de variables. Nous présentons une stratégie générale d'agrégation de variables dédiée à l'algorithme de classification choisi par l'expérimentateur. Cette méthode d'agrégation est d’écrite pour les algorithmes kNN et CART. Nous présentons une application de cette méthode de réduction de la dimension à des données fonctionnelles ainsi qu'à des données de biopuces.

Mots clés

statistical learning model selection penalized criterion oracle inequality

apprentissage statistique sélection de modèles sélection de variables agrégation de variables critère pénalisé inégalité oracle variable selection variable aggregation

Domaines

Mathématiques [math] Informatique [cs]

Fichier principal

51647_20120323031844512_1.pdf (2.98 Mo)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Migration ProdInra : Connectez-vous pour contacter le contributeur

https://hal.inrae.fr/tel-02824788

Soumis le : samedi 6 juin 2020-23:01:36

Dernière modification le : jeudi 14 mars 2024-03:13:56

Dates et versions

tel-02824788 , version 1 (06-06-2020)

Identifiants

HAL Id : tel-02824788 , version 1
PRODINRA : 51647

Citer

Tristan Mary-Huard. Réduction de la dimension et sélection de modèles en classification supervisée. Mathématiques [math]. Université Paris Sud - Paris 11, 2006. Français. ⟨NNT : ⟩. ⟨tel-02824788⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH INRA MIA-PARIS INRAE MATHNUM

117 Consultations

239 Téléchargements

Réduction de la dimension et sélection de modèles en classification supervisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager