Interpretability of species distribution models based on deep convolutional learning
Interprétabilité des modèles de distribution d’espèces basés sur des réseaux de neurones convolutifs
Résumé
Species distribution models link the geographic distribution of a species to its environment. The objectives of using these models are multiple. They can be used to extract knowledge on species and their environmental preferences, to help with conservation plans and policies, to monitor and anticipate the spread of invasive species, or to simulate environmental changes and their impacts on species. To best meet these objectives, it is necessary to design efficient, accurate and interpretable models. Most of the models used today are relatively simple models. These models have the advantage of being easy to interpret by producing simple relationships between a species and its environment. However, they often share some shortcomings such as sensitivity to overfitting, which requires a careful choice of descriptive data of the environment to avoid interpretation errors. Models based on machine learning approaches have shown performances that are often as good or even better, with a stronger robustness against overfitting. However, these methods are more often criticized for their lack of interpretability. This is the case with convolutional neural networks whose first experiments have shown promising results for their use in species distribution modeling. Convolutional neural networks are known for their particularly high performance in all image processing tasks (classification, object detection, counting, etc.). They have the particularity of being able to use very large data with little risk of overfitting. Even more than other machine learning approaches, these models are often described as black boxes that are difficult to interpret. We propose to study the use of these models, called Deep-SDMs, in the context of species distribution prediction with a particular attention to interpretation in order to highlight the potential interests of this new approach while trying to clarify the mechanisms involved.
We present the use and analysis of Deep-SDMs with several interpretability experiments in different contexts. We conduct comparisons on some aspects with more state-of-the-art models. We propose qualitative and quantitative analyses on the interpretation of Deep-SDMs learning. In particular, we propose to study what the model captures, either by analyzing the differences in performance according to the data used and the information they contain, or directly by studying the learned representation space of the model (the last layer of the model).
Overall we show that it is possible to analyze and interpret model learning in several ways, leading to interesting ecological conclusions. We show an interesting potential of Deep-SDMs that allow: (1) to learn a single model for many species simultaneously and using observation data without absence data, (2) to use more complex and richer representations of the environment thanks to their ability to use very high dimensional data, (3) often better performances than other models, especially on rare species, (4) learning on a very large scale (thousands of species and regions the size of countries) and at a very fine resolution (around ten meters) thanks to remote sensing data, and (5) possible reuse of models in similar contexts, taking advantage of the learning already done.
Les modèles de distributions d'espèces font le lien entre la distribution géographique d’une espèce et son environnement. Les objectifs de l’utilisation de ces modèles sont multiples. On peut citer entre autres l’extraction de connaissance sur les espèces et leur préférences environnementales, l’aide aux plans de conservations et politiques de protections des espèces, la surveillance et l’anticipation de la propagation d’espèces envahissantes ou encore les simulations d’évolution de l’environnement et leurs impacts sur les espèces. Pour répondre au mieux à ces objectifs il est nécessaire de concevoir des modèles performants, précis et interprétables. La plupart des modèles utilisés aujourd’hui sont des modèles relativement peu complexes. Ces modèles ont l’avantage d’être faciles à interpréter en produisant des relations simples entre une espèce et son environnement. Cependant, ils partagent souvent certains défauts comme la sensibilité au sur-apprentissage nécessitant ainsi de bien choisir les données descriptives de l’environnement pour éviter les erreurs d’interprétation. Des modèles basés sur des approches d’apprentissage artificiel ont montré des performances souvent aussi bonnes voire meilleures avec une plus forte robustesse contre le sur-apprentissage. Ces méthodes sont en revanche plus souvent critiquées pour leur manque d’interprétabilité. C'est le cas avec les réseaux de neurones convolutifs dont les premières expériences ont montré des résultats prometteurs pour leur utilisation en modélisation de la distribution d’espèces. Les réseaux de neurones convolutifs sont connus pour leurs performances particulièrement élevées dans toutes les tâches de traitement d’image (classification, détection d’objets, comptage, etc.). Ils ont la particularité de pouvoir utiliser des données de très grandes dimensions avec peu de risques de sur-apprentissage. Encore plus que les autres modèles d’apprentissage artificiel, ces modèles sont très souvent décrits comme des boîtes noires difficiles à interpréter. Nous proposons d’étudier l’utilisation de ces modèles, appelés Deep-SDMs, dans le contexte de la prédiction de distribution d’espèces en portant une attention particulière à l'interprétation afin de mettre en avant les intérêts potentiels de cette nouvelle approche tout en essayant d’éclaircir au mieux les mécanismes en jeu.
Nous présentons l’utilisation et l’analyse des modèles Deep-SDMs avec plusieurs expériences d’interprétabilité dans différents contextes. Nous menons des comparaisons sur certains aspects avec des modèles plus état-de-l’art. Nous proposons des analyses qualitatives et quantitatives sur l’interprétation des apprentissages de Deep-SDMs. Nous proposons notamment d’étudier ce que le modèle capture, soit en analysant les différences de performances selon les données utilisées et les informations qu’elles contiennent, soit directement en étudiant l’espace de représentation appris du modèle (la dernière couche du modèle).
Dans l’ensemble nous montrons qu’il est possible d'analyser et d'interpréter l’apprentissage des modèles de plusieurs manières, permettant d’aboutir à des conclusions écologiques intéressantes. Nous montrons un potentiel intéressant des Deep-SDMs qui permettent: (1) d’apprendre un unique modèles pour de nombreuses espèces simultanément et en utilisant des données d’observations sans données d’absences, (2) d’utiliser des représentations plus complexes et plus riches de l’environnement grâce à leur capacité à utiliser des données de très grande dimension, (3) des performances souvent meilleures que les autres modèles, en particulier sur les espèces rares, (4) un apprentissage à la fois à très grande échelle (sur des milliers d’espèces et des régions de la taille de pays) et à très fine résolution (de l’ordre de la dizaine de mètres) grâce aux données de remote sensing, et (5) une réutilisation possible des modèles dans des contextes proches profitant en partie des apprentissage déjà effectués.