Séance Séminaire – Institut Montpelliérain Alexander Grothendieck

Séminaire de Probabilités et Statistique

Monday 20 February 2006 à 10:30 - salle 331
Christine Tuleau (Université Paris X - Nanterre)

La sélection de variables d’un point de vue applicatif

La sélection de variables consiste à extraire, parmi toute l’information disponible, celle capable d’expliquer le phénomène étudié. Plus précisément, étant donné un échantillon d’apprentissage L = {(X1, Y1), . . . , (Xn, Yn)} où Yi est la réponse associé à l’essai i et Xi = (X1_i, . . . , Xp_i ) le vecteur des p variables explicatives, on cherche à déterminer, au regard des données, les variables permettant d’expliquer la réponse. En général, on cherche, de plus, à déterminer le plus petit paquet possible, notamment si l’on considère des problèmes industriels. Dans le cadre des variables explicatives réelles ( pour tout j dans {1, . . . , p}, Xj_i appartient à R), la procédure de sélection de variables proposée traite le cas de la classification binaire et de la régression. Une procédure exhaustive et théorique, basée l’algorithme CART et la théorie de la sélection de modèles a été justifiée à d’inégalité de type “oracle”. Mais, son caractère exhaustive la rend difficilement applicable. C’est pourquoi, une procédure déduite de la précédente et tournée vers l’application a été développée et testée sur des exemples réels et simulés. Pour les variables de type fonctionnel, la sélection de variables proposée s’opère selon une méthodologie divisée en trois grandes phases que sont : le prétraitement des données, la compression par ondelettes et la sélection. Ce dernier point met en oeuvre l’algorithme CART, l’importance des variables ainsi qu’une stratégie pas à pas. Cette méthodologie a été proposée dans le cadre d’un travail de type “industriel” réalisé en partenariat avec la Direction de la Recherche de Renault.