Colloquium de Mathématiques
jeudi 13 juin 2013 à 15:00 - Salle 9.11
Pascal Massart (Paris 11)
Sélection de modèles par pénalisation : comment choisir la pénalité ?
La sélection de modèle est un thème classique de la statistique. L’idée de choisir un modèle via un critère de type log-vraisemblance pénalisée remonte au début des années 70 avec les travaux précurseurs de Mallows et d’Akaike. Il se trouve que dans bon nombre de problèmes, tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d’une dimension donnée avec le nombre d’observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L’enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des p énalités qu’il convient d’utiliser mais n’est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d’implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s’agir d’une faiblesse de la théorie qui garantit l’existence d’une constante absolue mais sans en donner la valeur numérique. Le problème peut être de nature statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l’extrapoler à d’autres cadres que le cadre strict dans lequel la théorie permet de la valider.