Séminaire de Probabilités et Statistique :
Le 18 décembre 2017 à 13:45 - UM - Bât 09 - Salle de conférence (1er étage)
Présentée par Didier Gilles - Université Aix-Marseille
Détection de signatures moléculaires de convergences évolutives/Estimation de taux de spéciations-extinction et âges des fossiles/Pattern-Matching optimal en moyenne
L'exposé sera consacré à la présentation de trois travaux en cours. Le premier consiste à rechercher les gènes qui interviennent dans une convergence d'un caractère physique donné. En évolution, on parle de convergence lorsque des espèces éloignées d'un point de vue évolutif développent indépendemment des caractères similaires. Afin de détecter les sites (en pratique les colonnes d'alignement des espèces) susceptibles d'intervenir dans l'apparition du caractère convergent, nous étudions l'espérance du nombre de mutations vers un même acide aminé qui sont conservées jusqu'à une espèce actuelle avec le caractère. L'approche a été appliquée à un jeu de donnée biologique sur l'apparition de l'écholocation entre le dauphin et la chauve-souris et a donné des résultats satisfaisants d'un point de vue biologique. Le second montre comment calculer la densité de probabilité d'un arbre phylogénétique obtenu à partir des espèces actuelles et fossiles et pour lequel la seul information temporelle est donnée par les âges des fossiles (i.e., on ne connaît pas les temps de spéciations/branchements de l'arbre). En modélisant les spéciations/extinctions comme un processus de naissance/mort et la fossilisation comme un processus de Poisson sur l'arbre phylogénétique, on montre que cette densité de probabilité peut s'écrire comme une somme-produit de densités de probabilité de portions d'arbres élémentaires qu'on sait calculer explicitement et qui permettent le calcul exact de la densité probabilité de l'arbre sans avoir à échantillonner les temps de spéciation. Le troisième s'intéresse tout d'abord à déterminer l'espérance limite du temps de calcul d'un algorithme donné pour rechercher un mot dans un texte aléatoire iid. Pour ce faire, on associe à un algorithme standard, un mot et des fréquences de lettres du modèle iid, une chaîne de Markov dont les états peuvent être interpréter comme des configurations de variables internes de l'algorithme au cours de son exécution. L'espérance limite du temps de calcul se déduit alors des fréquences limites des états de la chaîne. On montre ensuite comment, étant donné un mot et les fréquences d'un modèle iid, construire un nouvel algorithme, optimal au sens de son espérance limite de temps de recherche de ce mot dans des textes tirés de ce modèle.