Séminaire de Probabilités et Statistique
lundi 16 mars 2009 à 10:30 - SupAgro, salle 9/106 au coeur d'école
Cathy Maugis (INSA Toulouse)
"Sélection de variables pour la classification non supervisée par mélanges gaussiens."
Les progrès informatiques et le développement de technologies de pointe performantes, comme les puces à ADN, participent activement à la création de données décrites par un nombre croissant de variables. Certaines de ces variables peuvent être inutiles voire néfastes pour l’obtention d’une classification des données. Nous proposons une procédure de sélection de variables, incluse dans le processus de classification par mélange gaussiens. Le problème de sélection de variables est ramené à un problème de sélection de modèles. Notre modélisation, généralisant celle proposée par Raftery et Dean (2006), permet de spécifier le rôle de chaque variable. Elle ne nécessite aucune hypothèse a priori sur le lien entre les variables sélectionnées et les variables écartées pour la classification. Ces modèles sont comparés grâce à un critère de type BIC. Leur identifiabilité est établie et la consistance du critère est démontrée sous des conditions de régularité. En pratique, le statut des variables est obtenu grâce à un algorithme imbriquant deux algorithmes descendants de sélection de variables pour la classification et pour la régression linéaire. L’intérêt de cette procédure est en particulier illustré sur des données transcriptomes. Une amélioration de la modélisation du rôle des variables est ensuite proposée pour pallier une surpénalisation de certains modèles. Enfin, la technologie des puces à ADN engendrant de nombreuses données manquantes, une extension de notre procédure tenant compte de l’existence de ces valeurs manquantes est suggérée, évitant leur estimation préalable.