Séminaire de Probabilités et Statistique :
Le 15 septembre 2014 à 15:00 - UM2 - Bât 09 - Salle de conférence (1er étage)
Présentée par Yengo Loïc - Université de Lille
Contribution à la classification de variables dans les modèles de régression en grande dimension
Je propose ici une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. En transférant de l'hypothèse de distribution des covariables vers les coefficients de régression, notre modèle rend la classification de variables plus facile dans les cas où les covariables ne sont pas issues d'une même famille de distributions. Par exemple, aucune hypothèse supplémentaire n'est pas à faire pour classer ensemble des covariables quantitatives et qualitatives. Nous montrons que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle. Nous avons d'abord étudié une stratégie d'estimation basée sur une approximation par simulations Monte Carlo de l'étape E. Cette stratégie, connue sous le nom d'algorithme Monte Carlo EM a toutefois été jugée trop lente. Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle,nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Ce travail de recherche a conduit au développement du paquet R *clere*.