Séminaire de Probabilités et Statistique
lundi 17 septembre 2018 à 13:45 - UM - Bât 09 - Salle de conférence (1er étage)
Romain Azaïs (INRIA MOSAIC)
Un nouvel éclairage sur le "subtree kernel" pour données arborescentes
En classification supervisée, on souhaite construire une règle de prédiction d'une variable qualitative $Y$ en fonction d'un prédicteur $X$ (généralement à valeurs dans $\mathbb{R}^d$) à partir d'un ensemble d'exemples $(X_i,Y_i)_{1\leq i\leq n}$. On suppose ici que $X_i$ est un arbre, ordonné ou non, avec ou sans étiquette sur ses noeuds. Ce cadre est un peu particulier puisque l'espace d'état de $X$ n'est pas muni d'un produit scalaire canonique. Dans ce contexte, les méthodes à noyau permettent de transporter les données dans un espace de Hilbert rendant le problème plus facile à traiter. Se pose alors la question de la construction d'un bon noyau. Dans cet exposé, j'explorerai cette problématique pour un noyau de convolution particulier, le "subtree kernel" - introduit par Vishwanathan et Smola (NIPS '02) -, en tentant de traiter les trois points suivants : (i) Quelle est la bonne structure de données pour calculer ce noyau ?, (ii) Peut-on comprendre ce qui le rend si efficace en pratique ? et (iii) Comment choisir une bonne fonction de poids ? L'exposé sera illustré par des simulations et des applications à des données réelles. (Travail avec Florian Ingels)