Séminaire de Probabilités et Statistique :

Le 16 décembre 2013 à 15:00 - SupAgro, salle 106, cœur d'école


Présentée par Guedj Benjamin - INRIA Lille

Régression en grande dimension : un point de vue PAC-bayésien



La théorie statistique de l'agrégation a motivé de très nombreux travaux depuis sa formalisation à la fin des années 1990 : parmi ceux-ci, la théorie PAC-bayésienne est aujourd'hui bien établie, et fournit de puissantes stratégies d'estimation en classification et régression. Parallèlement à ces avancées, nous entrons chaque jour un peu plus dans l'ère de ce que l'on nomme le "big data" : les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique, et leur traitement devient une véritable gageure algorithmique. Les résultats présentés dans cet exposé visent à étendre les techniques PAC-bayésiennes au cas de deux modèles de régression en grande dimension : la régression additive, et la régression logistique. Nous nous attacherons également à décrire la mise en oeuvre de ces techniques par MCMC. Nos résultats théoriques consistent en des inégalités oracles démontrant l'optimalité au sens minimax (à un facteur logarithmique près) de notre approche. Les algorithmes que nous proposons sont implémentés dans le package R pacbpred, dont les performances sur données synthétiques seront commentées.

Référence : http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.ejs/1359041592



Retour