Séminaire de Probabilités et Statistique
lundi 22 octobre 2018 à 11:00 - UM - Bât 09 - Salle de conférence (1er étage)
Séance Spéciale ()
Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées. Oratrice : Alyssa Imbert
Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l'hétérogénéité des données au niveau biologique (acquises à différents niveaux de l'échelle du vivant et à divers moments de l'expérience), l'hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d'erreurs) dans les données et la présence de données manquantes (au niveau d'une valeur ou d'un individu entier). Ces travaux s'inscrivent dans un projet de recherche clinique sur l'obésité, DiOGenes qui vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de maladies liées à l'obésité. La première partie de cette présentation est consacrée aux données manquantes et à l'inférence de réseaux à partir de données d'expression RNA-Seq. Lors d'études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d'imputation multiple hot-deck (hd-MI) qui permet d'intégrer de l'information externe mesurée sur les mêmes individus et d'autres individus. Hd-MI permet d'améliorer la robustesse des réseaux inférés. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous montrons l'intérêt de cette nouvelle technique QuantSeq pour l'acquisition de données transcriptomiques et l'analysons par une approche d'inférence de réseau en lien avec des données cliniques d'intérêt.