Séminaire de Probabilités et Statistique
lundi 14 février 2011 à 15:00 - SupAgro, salle 11/104 château
Wilson Toussille (Université Paris Descartes)
Sélection de variable en classification non supervisée par mélange fini à partir de données génétiques multilocus
Nous considérons le problème de sélection de variable en classification non supervisée par mélange fini de lois multinomiales dans un contexte de données génétiques multilocus. Le problème de sélection du nombre de composants du mélange et du sous ensemble de variables utiles est vu comme celui de sélection de modèle via pénalisation du maximum de vraisemblance. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistante. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Ce résultat suggère une pénalité de la forme du produit de la dimension par un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration de la pénalité peut permettre de résoudre le problème du choix du critère de sélection en fonction de la taille de l'échantillon.