Estimation des moindres carrés d’une densité discrète sous contrainte de<em> κ</em>-monotonie et bornes de risque. Application à l’estimation du nombre d’espèces dans une population.

Jade Giguelay

Résumé

This thesis belongs to the field of nonparametric density estimation under shape constraint. The densities are discrete and the form is k-monotonicity, k > 2, which is a generalization of convexity. The integer k is an indicator for the hollow’s degree of a convex function. The introduction is structured in three chapters. First Chapter is a state of the art of the topic of density estimation under shape constraint. The second chapter of the introduction is a synthesis of the thesis, available in French and in English. Finally Chapter 3 is a short chapter which summarizes the notations and the classical mathematical results used in the manuscript. Part I : Two least-square estimators of a discrete distribution p* under constraint of k-monotonicity are proposed. Their characterization is based on the decomposition on a spline basis of k-monotone sequences, and on the properties of their primitives. Their statistical properties are studied, and in particular their quality of estimation is measured in terms of the quadratic error. They are proved to converge at the parametric rate. An algorithm derived from the support reduction algorithm is implemented and a simulation study illustrates the properties of the estimators. Part II : In the first chapter of Part II, a methodology for calculating risk bounds of the least-square estimator is given. These bounds are adaptive in that they depend on a compromise between the distance of p* on the frontier of the set of k-monotone densities with finite support, and the complexity (linked to the spline decomposition) of densities belonging to this set that are closed to p*. The methodology based on the variational formula of the risk proposed by Chatterjee (2014) is generalized to the framework of discrete k-monotonic densities. Then the bracketting entropies of the relevant functionnal space are calculating, leading to control the empirical process involved in the quadratic risk. Optimality of the risk bound is discussed in comparaison with the results previously obtained in the continuous case and for the gaussian regression framework. In the second chapter of Part II, several results concerning bracketting entropies of spaces of k-monotone sequences are presented. Part III : The last part deals with the problem of estimating the number of present species in a given area at a given time, based on the abundances of species that have been observed. A definition of a k-monotone abundance distribution is proposed. It allows to relate the probability of observing zero species to the truncated abundance distribution. Two approaches are proposed. The first one is based on the Least-Squares estimator under constraint of k-monotonicity, the second one is based on the empirical distribution. Both estimators are compared using a simulation study. Because the estimator of the number of species depends on the value of the degree of monotonicity k, we propose a procedure for choosing this parameter, based on nested testing procedures. The asymptotic levels and power of the testing procedure are calculated, and the behaviour of the method in practical cases is assessed on the basis of a simulation study.

Cette thèse est une contribution au domaine de l’estimation non-paramétrique sous contrainte de forme. Les fonctions sont discrètes et la forme considérée, appelée k-monotonie, k désignant un entier supérieur à 2, est une généralisation de la convexité. L’entier k constitue un indicateur du degré de creux d’une fonction convexe. L’introduction comprend trois chapitres. Le premier présente un état de l’art de l’estimation de densité sous contrainte de forme. Le second est une synthèse des résultats obtenus au cours de la thèse, disponible en français et en anglais. Enfin, le Chapitre 3 regroupe quelques notations et des résultats mathématiques utilisés au cours du manuscrit. Partie I : Deux estimateurs des moindres carrés d’une distribution discrète p* sous contrainte de k-monotonie sont proposés. Leur caractérisation est basée sur la décomposition en base de spline des suites k-monotones, et sur les propriétés de leurs primitives. Les propriétés statistiques de ces estimateurs sont étudiées. Leur qualité d’estimation, en particulier, est appréciée. Elle est mesurée en terme d’erreur quadratique, les deux estimateurs convergent à la vitesse paramétrique. Un algorithme dérivé de l’Algorithme de Réduction de Support est implémenté et une étude sur jeux de données simulés illustre les propriétés de ces estimateurs. Partie II : Dans le premier chapitre de la Partie II, le risque quadratique de l’estimateur des moindres carrés introduit précédemment est borné. Cette borne est adaptative en le sens qu’elle dépend d’un compromis entre la distance de p* à la frontière de l’ensemble des densités k-monotones à support fini, et de la complexité (en terme de décomposition dans la base de spline) des densités appartenant à cet ensemble qui sont suffisamment proches de p*. La méthode est basée sur une formulation variationnelle du risque proposée par Chatterjee (2014) et généralisée au cadre de l’estimation de densité. Par la suite, les entropies à crochet des espaces fonctionnels correspondants sont calculées afin de contrôler le supremum de processus empiriques impliqué dans l’erreur quadratique. L’optimalité de la borne de risque est ensuite discutée au regard des résultats obtenus dans le cas continu et dans le cadre de la régression. Dans le second chapitre de la Partie II, des résultats complémentaires sur les entropies à crochet pour les espaces de fonctions k-monotones sont donnés. Partie III : La dernière partie traite du problème de l’estimation du nombre d’espèces dans une population. La modélisation choisie est celle d’une distribution d’abondance commune à toutes les espèces et définie comme un mélange. La méthode proposée repose sur l’hypothèse de k-monotonie d’abondance. Cette hypothèse permet de rendre le problème de l’estimation du nombre d’espèces identifiable. Deux approches sont proposées. La première est basée sur l’estimateur des moindres carrés sous contrainte de k-monotonie, tandis que la seconde est basée sur l’estimateur empirique. Les deux estimateurs sont comparés sur une étude sur données simulées. L’estimation du nombre d’espèces étant fortement dépendante du degré de k-monotonie choisi dans le modèle, trois procédures de tests multiples sont ensuite proposées pour inférer le degré k directement sur la base des observations. Le niveau et la puissance de ces procédures sont calculés, puis évalués au moyen d’une étude sur jeux de données simulés et la méthode est appliquée sur des jeux de données réels issus de la littérature.

Estimation des moindres carrés d’une densité discrète sous contrainte de κ-monotonie et bornes de risque. Application à l’estimation du nombre d’espèces dans une population.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager