Ranking Cases with Decision Trees: a Geometric Method that Preserves Intelligibility
Ranger des cas avec des arbres de décision : une méthode géométrique qui préserve l'intelligibilité
Résumé
This paper proposes a new method to rank the cases classified by a decision tree. The method applies a posteriori without modification of the tree and doesn't use additional training cases. It consists in computing the distance of the cases to the decision boundary induced by the decision tree, and to rank them according to this geometric score. When the data are numeric it is very easy to implement and efficient. The distance-based score is a global assess, contrary to other methods that evaluate the score at the level of the leaf. The distance-based score gives good results even with pruned tree, so if the tree is intelligible this property is preserved with an improved ranking ability. The main reason for the efficacity of the geometric method is that in most cases when the classifier is sufficiently accurate, errors are located near the decision boundary.
Cet article propose une nouvelle méthode pour ordonner des exemples classés par un arbre de décision. Cette méthode s'applique à posteriori sans modification de l'arbre et sans utiliser d'exemples d'apprentissage supplémentaires. Elle consiste à calculer la distance de chaque cas à la frontière de décision crée par l'arbre de décision, puis à ranger les cas suivants ce score géométrique. Quand les données sont numériques, cette méthode est facile à implémenter et très efficace. Le score basé sur la distance est évalué globalement, contrairement à d'autres scores calculés au niveau de chaque feuille. Le score géométrique donne de bons résultats même sur des arbres élagués, donc l'intelligibilité de l'arbre est préservée. La raison principale de l'efficacité de cette méthode géométrique vient du fait que si le classifieur est suffisamment bon, les erreurs sont localisées principalement près de la surface de décision.