Séminaire de Probabilités et Statistique
lundi 24 octobre 2011 à 15:00 - SupAgro, salle 11/204 (château)
Aurélie Fischer (Université P. et M. Curie)
Sélection de paramètres pour les courbes principales
L'une des techniques d'analyse multivariée les plus utilisées pour résumer de l'information est l'Analyse en Composantes Principales, qui vise à déterminer les axes de variabilité maximale d?un nuage de points. La notion de courbe principale, introduite par Hastie et Stuetzle (1989), peut être vue comme une généralisation non linéaire de la première composante principale. Une courbe principale est une courbe paramétrée de R^d passant « au milieu » d'une loi de probabilité en dimension d ou d'un nuage de données de R^d. La définition originelle de Hastie et Stuetzle repose sur la propriété d'auto-consistance, qui peut s'interpréter en disant que chaque point d'une courbe principale est la moyenne des observations se projetant sur la courbe au voisinage de ce point. D'autres définitions ont été proposées ensuite ; l'une d'entre elles, étroitement liée à l'idée initiale de Hastie et Stuetzle, repose sur la minimisation d?un critère de type moindres carrés (Kégl, Krzyzak, Linder et Zeger, 2000 ; Sandilya et Kulkarni, 2002). C'est ce point de vue que nous adopterons dans cet exposé. Nous nous intéresserons au choix d'une bonne classe de courbes sur laquelle minimiser le critère, dans le but d'obtenir une courbe principale qui résume au mieux la forme des données sans interpoler. Pour ce faire, nous proposons une approche de sélection de modèle par pénalisation (Birgé et Massart, 1997 ; Barron, Birgé et Massart, 1999).