Réduction de la dimension et sélection de modèles en classification supervisée - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement
Thèse Année : 2006

Réduction de la dimension et sélection de modèles en classification supervisée

Résumé

This thesis takes place within the framework of statistical learning. We study the supervised classification problem for large dimension data. The first part of the document presents the state of the art regarding model selection in the Vapnik theory framework and different variable selection approaches in statistical learning. The second part presents some new tools for model selection and dimension reduction. In Chapter 3, we provide an estimator of the bias between the conditional and the training error of a classification rule. This estimator is then used to derive a penalized criterion called Swapping. The penalty is based on the points for which a change of label induces a change of prediction. An application to the choice of k in the kNN algorithm is presented. In Chapter 4, we propose a penalized criterion for variable selection in supervised classi¯cation. This criterion provides a theoretical justi¯cation of the pruning step of the CART algorithm as an embedded variable selection method. The last chapter is dedicated to a general strategy to aggregate variables in view of classification. The reduction dimension method is adapted to the classification algorithm. Applications to functional and microarray data are provided.
La thèse se place dans le contexte de l'apprentissage statistique. On s'intéresse au problème de la classification supervisée des données de grande dimension. Dans un premier temps, nous introduisons les principes de la théorie de Vapnik et de la sélection de modèles, et présentons les grandes familles de méthodes de sélection de variables. Dans un deuxième temps, nous nous proposons de nouveaux outils de sélection de modèles et de réduction de la dimension. Au chapitre 3, nous proposons un estimateur du biais entre le risque conditionnel et le risque empirique d'une règle de classification. Cet estimateur est ensuite utilisé pour l'élaboration d'un critère pénalisé de sélection de modèles appelé Swapping. La pénalité est alors basée sur les seuls points de l'échantillon d'entraînement pour lesquels un changement de label entraîne un changement de prédiction. Les performances pratiques du critère Swapping sont illustrées par l'application à l'algorithme kNN pour le choix du nombre de voisins. Au chapitre 4, nous présentons un critère pénalisé pour la sélection de variables en classification supervisée. La qualité du critère obtenue est garantie par une inégalité oracle. Ce résultat théorique est ensuite utilisée pour justifier la phase d'élagage de l'algorithme CART en tant que méthode intégrée de sélection de variables. Le dernier chapitre est consacré à l'agrégation de variables. Nous présentons une stratégie générale d'agrégation de variables dédiée à l'algorithme de classification choisi par l'expérimentateur. Cette méthode d'agrégation est d’écrite pour les algorithmes kNN et CART. Nous présentons une application de cette méthode de réduction de la dimension à des données fonctionnelles ainsi qu'à des données de biopuces.
Fichier principal
Vignette du fichier
51647_20120323031844512_1.pdf (2.98 Mo) Télécharger le fichier
Origine Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

tel-02824788 , version 1 (06-06-2020)

Identifiants

  • HAL Id : tel-02824788 , version 1
  • PRODINRA : 51647

Citer

Tristan Mary-Huard. Réduction de la dimension et sélection de modèles en classification supervisée. Mathématiques [math]. Université Paris Sud - Paris 11, 2006. Français. ⟨NNT : ⟩. ⟨tel-02824788⟩
117 Consultations
239 Téléchargements

Partager

More