Une initiation aux algorithmes de machine learning sur R : session 1, Gradient Boosting
Résumé
Dans ce premier séminaire, après avoir introduit les différentes étapes généralement mises en œuvre dans le cadre d'une modélisation prédictive à partir d'outils de machine learning, on s'attachera, à travers une exemple sur des données spatiotemporelles, à présenter les algorithmes les plus utilisés s'appuyant sur des algorithmes de gradient boosting et des arbres de régressions (xgboost, rf, glm/gamboost, ...). Ensuite, on montrera comment calibrer les hyperpartamètres de l'algorithme choisi à partir du package **mlr** qui permet d'utiliser et de comparer une grande diversité d'algorithmes. On discutera des précautions à prendre pour éviter le sur-apprentissage et comment interpréter et représenter les effets des différentes variables sélectionnées par les algorithmes.