Séminaire de Probabilités et Statistique
lundi 29 mars 2010 à 15:00 - UM2 - Salle SC16.01, bâtiment 16
Fabrice Rossi (TELECOM ParisTech)
Classification de variables pour la régression sur données fonctionnelles
Les données fonctionnelles sont caractérisées par la présence d'un grand nombre de variables corrélées obtenues en discrétisant les fonctions observées sur une grille fine. Certains spectromètres produisent ainsi des spectres sur 1 000 variables spectrales ou plus. Pour estimer un modèle de régression sur de telles observations, la difficulté réside plus dans la construction d'une représentation concise des données que dans celle du modèle lui-même. Ce travail propose une méthode de simplification qui s'appuie sur une classification des variables décrivant les fonctions. Quand on est confronté à un grand nombre de variables corrélées, il est fréquent de recourir une telle classification, puis à remplacer chaque groupe de variables par une nouvelle variable correspondant à la moyenne de celles du groupe. En imposant une contrainte de contigüité sur les classes, ceci correspond à approcher les fonctions discrétisées par des fonctions constantes par morceaux avec les mêmes morceaux pour toutes les fonctions. Ce travail introduit une mesure de similarité entre variables qui traduit leur pouvoir explicatif vis à vis de la variable à prédire. La classification de variables ainsi produite est donc supervisée par le problème de régression. On montre sur des exemples réels que la simplification opérée par cette méthode est plus efficace que celle induite par une technique non supervisée classique : à complexité de représentation égale, le modèle de régression est plus précis avec la méthode supervisée qu'avec la méthode non supervisée.