Séminaire des Doctorant·e·s
mercredi 10 avril 2019 à 15h - Salle 109
Jocelyn Chauvet (IMAG)
Structures de dépendance complexes pour modèles à composantes supervisées.
Les modèles linéaires généralisés (GLM pour Generalised Linear Models) sont très usités pour les problèmes de régression, car ils étendent les modèles linéaires classiques à des cas où la variable réponse n?est pas nécessairement continue (on pense notamment à des réponses binaires ou de comptage). Cependant, l?augmentation du nombre de variables explicatives peut s?avérer néfaste pour le GLM : 1) La redondance entre les variables explicatives s?accroit mécaniquement avec leur nombre. Des instabilités dans l?estimation des coefficients de régression (voire des problèmes plus important d?identifiabilité) peuvent alors apparaitre. 2) Le nombre de coefficients à estimer devient déraisonnablement élevé, ce qui impacte grandement le pouvoir interprétatif du modèle. Pour faire face à ces difficultés, il est indispensable de combiner à la vraisemblance de ces modèles un critère supplémentaire qui régularise l'estimateur. Deux approches de régularisation (parmi d?autres) sont envisageables : 1) Pénaliser la vraisemblance du modèle par une norme sur le vecteur des coefficients de régression. 2) Extraire un nombre réduit de combinaisons linéaires orthogonales des variables explicatives initiales (ces combinaisons linéaires sont appelées « composantes »). La stratégie de régularisation que nous envisageons consiste à construire des composantes dites « supervisées ». Ces dernières sont conçues pour capturer l'information structurelle des variables explicatives, mais aussi pour prédire autant que possible les variables réponses. Initialement développée pour des modèles à observations indépendantes, je présenterai des extensions de la régression sur composantes supervisées dans différentes situations de dépendance entre observations.