Séminaire de Probabilités et Statistique :

Le 24 juin 2013 à 15:00 - UM2 - Bât 09 - Salle de conférence (1er étage)


Présentée par Cénac Peggy - Université de Bourgogne

Algorithmes rapides pour l’estimation de la médiane géométrique et la classification non-supervisée "robuste" en grande dimension



La médiane géométrique est une extension naturelle de la médiane pour des vecteurs aléatoires à valeurs dans des espaces vectoriels normés. Il s'agit du point de l'espace dont la distance moyenne aux points de la distribution est la plus petite. La médiane géometrique est robuste et donc peu sensible aux points atypiques. Il est généralement difficile de détecter de tels points lorsqu'on dispose de grands échantillons de variables à valeurs dans des espaces de grande dimension (voire de dimension infinie). Nous proposons dans cet exposé un algorithme séquentiel extrêmement rapide de type gradient stochastique et montrons sa convergence vers la médiane géometrique. Nous présentons ensuite une extension directe de cet algorithme pour la classification non supervisée en introduisant un critère de type k-médianes. Cet algorithme peut s'interpréter comme une variante des k-means (à la MacQueen) basée sur des moindres normes plutôt que des moindres normes au carré. Ces techniques sont illustrées sur 5000 mesures individuelles d'audience relevées seconde par seconde par Médiamétrie au cours d'une journée. Travail en collaboration avec H. Cardot (IMB), P-A. Zitt (IMB) et J-M. Monnez (IECN).



Retour