Séminaire de Probabilités et Statistique
lundi 06 mars 2006 à 10:30 - Campus Ensam Inra, salle 106 Coeur d'Ecole
Franck Picard (CNRS)
Segmentation-classification de processus. Application à l'analyse des données de microarrays CGH.
Au cours de cet exposé je présenterai mes travaux de thèse qui traitent d'un nouveau modèle statistique pour l'analyse des problèmes de segmentation/classification dont l'objectif est de partitionner des données en zones homogènes, et de regrouper ces zones en un nombre fini de classes. Les problèmes de segmentation/classification sont traditionnellement étudiés à l'aide des modèles de cha\^ines de Markov cachées. Nous proposons un modèle alternatif qui combine un modèle de segmentation et un modèle de mélange. Nous construisons notre modèle dans le cas gaussien et nous proposons une généralisation à des variables discrètes dépendantes. Les paramètres de ce modèle sont estimés par maximum de vraisemblance à l'aide d'un algorithme hybride fondé sur la programmation dynamique et sur l'algorithme EM. Nous abordons un nouveau problème de sélection de modèle qui est la sélection simultanée du nombre de groupes et du nombre de segments et proposons une heuristique pour ce choix. Notre modèle est appliqué à l'analyse de données issues d'une nouvelle technologie, les microarrays CGH (Comparative Genomic Hybridization). Cette technique permet de compter le nombre de milliers de gènes le long du génome en une seule expérience. L'application de notre méthode à ces données permet de localiser des zones délétées ou amplifiées le long des chromosomes. Nous proposons également une application à l'analyse des séquences d'ADN pour l'identification de régions homogènes en terme de composition en nucléotides.