Séminaire de Probabilités et Statistique
lundi 18 janvier 2010 à 14:30 - SupAgro, salle 11/204 château
Robin Genuer (Univerté Paris-Sud (Orsay))
Forêts aléatoires : sélection de variables et bornes de risque
Dans un premier temps, nous présentons une méthode de sélection de variables basée sur l'algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu'en classification. En plus d'être très performantes en prédiction, les forêts aléatoires calculent un indice d'importance des variables. Basée sur cet indice d'importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Après avoir décrit en détail la procédure proposée, nous l'illustrons sur des données d'IRMf (Imagerie à Résonance Magnétique fonctionnelle). Ces données sont de très grande dimension (le nombre de variables est gigantesque) et les deux problèmes de sélection ci-dessus se posent naturellement. Dans un deuxième temps, nous présentons un résultat de consistance des forêts purement aléatoires, établi par Gérard Biau, Luc Devroye et Gabor Lugosi. Enfin, nous détaillons un résultat nouveau de réduction de variance d'une forêt purement aléatoire comparée à un arbre purement aléatoire.