Séminaire de Probabilités et Statistique
lundi 16 décembre 2013 à 15:00 - SupAgro, salle 106, cœur d'école
Benjamin Guedj (INRIA Lille)
Régression en grande dimension : un point de vue PAC-bayésien
La théorie statistique de l'agrégation a motivé de très nombreux travaux depuis sa formalisation à la fin des années 1990 : parmi ceux-ci, la théorie PAC-bayésienne est aujourd'hui bien établie, et fournit de puissantes stratégies d'estimation en classification et régression. Parallèlement à ces avancées, nous entrons chaque jour un peu plus dans l'ère de ce que l'on nomme le "big data" : les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique, et leur traitement devient une véritable gageure algorithmique. Les résultats présentés dans cet exposé visent à étendre les techniques PAC-bayésiennes au cas de deux modèles de régression en grande dimension : la régression additive, et la régression logistique. Nous nous attacherons également à décrire la mise en oeuvre de ces techniques par MCMC. Nos résultats théoriques consistent en des inégalités oracles démontrant l'optimalité au sens minimax (à un facteur logarithmique près) de notre approche. Les algorithmes que nous proposons sont implémentés dans le package R pacbpred, dont les performances sur données synthétiques seront commentées.
Référence : http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.ejs/1359041592