Séminaire de Probabilités et Statistique
lundi 22 janvier 2007 à 10:30 - CIRAD (Lavalette)
Stéphane Robin (INRA AgroParisTech)
"Recherche de structure dans des réseaux biologiques par modèle de mélange"
De plus en plus de données biologiques se présentent sous la forme de réseaux : réseaux d'interaction protéiques, d'interaction génique, de régulations, etc. Les outils statistiques permettant d'analyser ce type de données sont encore assez pauvres alors que les questions sont nombreuses. Par exemple, la recherche d'une structure modulaire dans le réseau permet de mieux en isoler les composantes pour en comprendre le fonctionnement global. De même, la détection de motifs topologiques (boucles, étoiles, chaînes) particulièrement fréquents peu aider à comprendre le fonctionnement local d'un réseau. Dans le cas des réseaux d'interaction, le modèle de référence est le modèle de graphe aléatoire d'Erdös-Rényi qui suppose que tous les sommets ont une probabilité égale d'être connectés entre eux, i.e. que toutes les protéines ont une probabilité égale d'interagir deux à deux. De nombreuses propriétés théoriques (distribution des degrés des sommets, coefficient d'agrégation, etc.) de ce modèle sont bien connues. Malheureusement, il s'ajuste mal à la plupart des réseaux réels. Une des raisons de ce mauvais ajustement est que les sommets sont souvent structurés en groupes ayant des profils de connectivité différents. Nous proposons une généralisation du modèle d'Erdös-Rényi qui suppose que l'ensemble des sommets est constitué d'une mélange de différentes sous populations. Nous étudions les propriétés de ce modèle et proposons une méthode d'estimation des paramètres fondée sur une approche variationnelle. Nous appliquons ce modèle au graphe des réactions enzymatiques d'E. coli et retrouvons différents groupes impliquant les même composés. La définition précise d'un modèle de graphe aléatoire nous permet enfin d'étudier le nombre d'occurrences d'un motif dans un réseau. Nous calculons l'espérance et la variance de ce nombre et proposons une approximation de sa distribution.