Séminaire de Probabilités et Statistique
lundi 09 février 2009 à 10:30 - SupAgro salle 11/204 (château).
Robin Girard (LJK, IMAG Grenoble)
"Classification de données gaussiennes en grande dimension."
Dans le problème de classification de données issues de lois gaussiennes, la stratégie la plus courante est de chercher à imiter la règle optimale en y remplaçant les paramètres théoriques inconnus par des contreparties empiriques. Les procédures de classification correspondantes sont connues sous les noms de LDA et QDA. La règle finalement utilisée n'est pas la règle optimale et il est naturel de vouloir mesurer à quel point les deux sont différentes. Je montrerais comment des interprétations géométriques simples conduisent à une telle mesure. Cette mesure, dans le cadre du problème de classification, permet notamment de préciser l'influence de la grande dimension des données et induit un algorithme de réduction de dimension. Cet algorithme, dont les performances théoriques et pratiques seront exposées, repose sur une estimation par seuillage des différents paramètres du problème. Nous illustrerons ses performances dans le cas de données spectrales issues d'examen IRM pour la classification de tumeur.