Estimation de la moyenne et de la variance de l'abondance de populations en écologie à partir d'échantillons de petite taille

L. Vaudor

Résumé

(trad auto)In ecology, as in many other fields, count data samples often include many zeros and some high abundances. Their distribution is particularly over-dispersed and asymmetrical. The most traditional methods of inference are often poorly adapted to these distributions, unless very large samples are available. It is therefore necessary to question the validity of inference methods, and to quantify estimation errors for such data. This thesis work was thus motivated by a set of fish abundance data corresponding to a point sampling by electric fishing. This dataset includes more than 2000 samples, each of which corresponds to the point abundances (considered independent and identically distributed) of a species for a given fishing season. These samples are small in size (usually 20 n 50) and include many zeros (in total, 80% of zeros). The adjustments of several conventional distribution models for the counting data were compared on these samples, and the negative binomial distribution was selected. We were therefore interested in estimating the two parameters of this distribution: the mean parameter m, and the dispersion parameter q. First, we studied the problems of estimating dispersion. The estimation error is all the more important when the number of individuals observed is small, and it is possible, for a given population, to quantify the gain in precision resulting from the exclusion of samples comprising very few individuals. We then compared several methods for calculating confidence intervals for the mean. Confidence intervals based on the likelihood of the negative binomial model are far preferable to more traditional methods such as the Student method. In addition, these two studies revealed that some estimation problems were predictable, through the observation of simple sample statistics such as the total number of individuals, or the number of non-zero counts. As a result, we compared the fixed-size sampling method to a sequential method, in which a minimum number of individuals or a minimum number of non-zero counts are sampled. We have thus shown that sequential sampling improves the estimation of the dispersion parameter but induces a bias in the estimation of the mean; nevertheless, it represents an improvement in the confidence intervals estimated for the mean. Thus, this work quantifies errors in estimating mean and dispersion in the case of over-disperse counting data, compares some estimation methods, and provides practical recommendations in terms of sampling and estimation methods"

En écologie comme dans bien d'autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d'inférence sont souvent mal adaptées à ces distributions, à moins de disposer d'échantillons de très grande taille. Il est donc nécessaire de s'interroger sur la validité des méthodes d'inférence, et de quantifier les erreurs d'estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d'abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d'une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 n 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l'estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d'estimation de la dispersion. L'erreur d'estimation est d'autant plus importante que le nombre d'individus observés est faible, et l'on peut, pour une population donnée, quantifier le gain en précision résultant de l'exclusion d'échantillons comprenant très peu d'individus. Nous avons ensuite comparé plusieurs méthodes de calcul d'intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d'estimation étaient prévisibles, à travers l'observation de statistiques simples des échantillons comme le nombre total d'individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d'échantillonnage à taille fixe, à une méthode séquentielle, où l'on échantillonne jusqu'à observer un nombre minimum d'individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l'échantillonnage séquentiel améliore l'estimation du paramètre de dispersion mais induit un biais dans l'estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d'estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d'estimations, et aboutit à des recommandations pratiques en termes de méthodes d'échantillonnage et d'estimation.

(trad auto)Estimation of the mean and variance of population abundance in ecology from small sample sizes

Estimation de la moyenne et de la variance de l'abondance de populations en écologie à partir d'échantillons de petite taille

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager