Séance Séminaire

Soutenances de thèses

mardi 07 décembre 2010 à 10:30 - LIRMM
Cécile Low-Kam (Université Montpellier II)

Etude probabiliste et statistique des grandes bases de données

Directeur de thèse : André MAS
Codirecteur de thèse : Maguelonne Teisseire, TETIS, Cemagref
Jury :
Mme Catherine Matias, Laboratoire Statistique et Génome, CNRS
M. Patrick Gallinari, Université Paris 6
M. Gilles Ducharme, Université Montpellier 2
M. Gilles Celeux, Université Paris-Sud 11 - INRIA Saclay
M. Nicolas Brunel, Université d'Evry
M. Mathieu Roche, Université Montpellier 2
M. André Mas, Université Montpellier 2
Mme Maguelonne Teisseire, TETIS, Cemagref

Résumé :
Cette thèse se situe à l'interface de la statistique et de la fouille de données. Elle est composée de trois parties indépendantes. Dans la première, nous cherchons à estimer l'ordre (le nombre d'états cachés) d'un modèle de Markov caché dont la distribution d'émission appartient à la famille exponentielle. Nous nous plaçons dans le cas où aucune borne supérieure sur cet ordre n'est connue a priori. Nous définissons deux estimateurs pénalisés pour cet ordre, l'un basé sur le maximum de vraisemblance et l'autre sur une statistique de mélange bayésien. Nous montrons la consistance forte de ces estimateurs. Dans la deuxième partie, nous extrayons des motifs séquentiels dont la fréquence est exceptionnellement élevée par rapport à un modèle de Markov. L'approche consiste à dénombrer dynamiquement toutes les positions possibles d'un motif au sein d'une séquence. Puis la fréquence observée est comparée à la fréquence attendue à l'aide d'un test binomial. Une procédure est utilisée pour tenir compte des tests multiples. Des expérimentations sont menées sur des bases synthétiques et des séquences de protéines. Enfin, dans la troisième partie, nous nous intéressons au calcul de l'estimateur à noyau de la densité. Les observations sont regroupées dans des structures hiérarchiques d'arbres binaires. Les calculs sont réalisés sur les nœuds, plutôt que sur les points, pour une plus grande efficacité. Nous effectuons le calcul sur un échantillon de points de chaque nœud, au lieu de sa totalité, en utilisant des inégalités de concentration non-paramétriques pour contrôler l'erreur. Puis, nous proposons un nouveau parcours de l'arbre pour effectuer ces échantillonnages sur un nombre réduit de nœuds. Nous testons notre approche sur des jeux de données synthétiques.