Séminaire de Probabilités et Statistique :

Le 17 septembre 2018 à 13:45 - UM - Bât 09 - Salle de conférence (1er étage)


Présentée par Azaïs Romain - INRIA MOSAIC

Un nouvel éclairage sur le "subtree kernel" pour données arborescentes



En classification supervisée, on souhaite construire une règle de prédiction d'une variable qualitative $Y$ en fonction d'un prédicteur $X$ (généralement à valeurs dans $\mathbb{R}^d$) à partir d'un ensemble d'exemples $(X_i,Y_i)_{1\leq i\leq n}$. On suppose ici que $X_i$ est un arbre, ordonné ou non, avec ou sans étiquette sur ses noeuds. Ce cadre est un peu particulier puisque l'espace d'état de $X$ n'est pas muni d'un produit scalaire canonique. Dans ce contexte, les méthodes à noyau permettent de transporter les données dans un espace de Hilbert rendant le problème plus facile à traiter. Se pose alors la question de la construction d'un bon noyau. Dans cet exposé, j'explorerai cette problématique pour un noyau de convolution particulier, le "subtree kernel" - introduit par Vishwanathan et Smola (NIPS '02) -, en tentant de traiter les trois points suivants : (i) Quelle est la bonne structure de données pour calculer ce noyau ?, (ii) Peut-on comprendre ce qui le rend si efficace en pratique ? et (iii) Comment choisir une bonne fonction de poids ? L'exposé sera illustré par des simulations et des applications à des données réelles. (Travail avec Florian Ingels)



Retour