Groupe de travail Analyse Topologique des Données

Le Mercredi de 10h00 à 11h00, en ligne

L'analyse topologique des données est un domaine qui a émergé au début des années 2000 et qui propose, comme son nom l'indique, d'utiliser des méthodes topologiques pour tirer des informations de données (en général) discrètes. L'objectif de ce groupe de travail est double : en plus de s'initier à ce domaine et de tenter d'en comprendre les enjeux principaux, on souhaite créer une dynamique qui permette aux équipes EPS et GTA (voire au-delà) d'interagir.


Programme (ordre chronologique inverse)

Mercredi 30 juin 2021
Nicolas Berkouk
Une Introduction à la Persistance à Plusieurs Paramètres : Motivations, Théorie et Perspectives La théorie de la persistance à un paramètre est parfaitement comprise, et a connu de nombreuses applications fondamentales et pratiques. Néanmoins, plusieurs questions venant de différents horizons mathématiques, de l'estimation statistique à la géométrie symplectique, nous incitent à nous intéresser au cas de modules de persistance à plusieurs paramètres. Dans cet exposé introductif, on motivera la nécessité d'étudier cette structure algébrique par plusieurs exemples, on en exposera ensuite les principales constructions et résultats (non existence de code-barres, distance d'entrelacement, stabilité), et si le temps le permets, on présentera des perspectives actuelles de ce domaine de recherche.

Mercredi 16 juin 2021
Nina Otter
Invariants for persistent homology and their stability (slides) One of the most successful methods in TDA is persistent homology, which associates a one-parameter family of spaces to a data set, and gives a summary — an invariant called “barcode” — of how topological features, such as the number of components, holes, or voids evolve across the parameter space. In many applications one might wish to associate a multiparameter family of spaces to a data set. There is no generalisation of the barcode to the multiparameter case, and finding algebraic invariants that are suitable for applications is one of the biggest challenges in TDA.
The use of persistent homology in applications is justified by the validity of certain stability results. At the core of such results is a notion of distance between the invariants that one associates to data sets. While such distances are well-understood in the one-parameter case, the situation for multiparameter persistence modules is more challenging, and it relies on a choice of suitable invariant.
In this talk I will first give a brief introduction to multiparameter persistent homology. I will then present a general framework to study stability questions in multiparameter persistence: I will first discuss which properties we would like invariants to satisfy, present different ways to associate distances to such invariants, and finally illustrate how our framework can be used to derive new stability results. No prior knowledge on the subject is assumed.
The talk is based on joint work with Barbara Giunti, John Nolan and Lukas Waas.

Mercredi 9 juin 2021
Frédéric Chazal
A framework to differentiate persistent homology with applications in Machine Learning and Statistics (slides) Understanding the differentiable structure of persistent homology and solving optimization tasks based on functions and losses with a topological flavor is a very active, growing field of research in data science and Topological Data Analysis, with applications in non-convex optimization, statistics and machine learning. However, the approaches proposed in the literature are usually anchored to a specific application and/or topological construction, and do not come with theoretical guarantees. In this talk, we will study the differentiability of a general map associated with the most common topological construction, that is, the persistence map. Building on real analytic geometry arguments, we propose a general framework that allows to define and compute gradients for persistence-based functions in a very simple way. As an application, we also provide a simple, explicit and sufficient condition for convergence of stochastic subgradient methods for such functions. If time permits, as another application, we will also show how this framework combined with standard geometric measure theory arguments leads to results on the statistical behavior of persistence diagrams of filtrations built on top of random point clouds.

Mercredi 5 mai 2021
Adélie Garin
Aller-retour entre arbres et code-barres (video, slides) Les méthodes d'analyse topologique des données (TDA) ont été appliquées avec succès dans un large éventail de domaines pour fournir des descripteurs topologiques (tels que les code-barres) de la structure de données complexes. Bien qu'il existe de nombreuses techniques pour calculer ces descripteurs, le problème inverse, c'est-à-dire la récupération des données de départ à partir de code-barres, s'avère plus difficile. Dans cet exposé, je commencerai par décrire la relation entre les différents espaces d'arbres et celle entre les arbres (merge trees) et les code-barres, via le "Topological Morphology Descriptor" (TMD), qui attribue un code-barre à un arbre, et une sorte d'inverse stochastique du TMD, le "Topological Neuron Synthesis" (TNS). Je décrirai une nouvelle approche pour classifier les code-barres à l'aide du groupe symétrique, qui fournit un langage concret pour formuler nos résultats. Je montrerai dans quelle mesure le TNS récupère un arbre similaire à partir de son TMD et décrirai brièvement l'effet de bruit sur le processus de génération d'arbres à partir de code-barres. Cet exposé est basé sur un projet avec Lida Kanari et Kathryn Hess.

Mercredi 28 Avril 2021
Gérard Besson
Une introduction à la concentration géométrique (video) La concentration de la mesure est un outil formidable en géométrie, introduit par Paul Lévy et développé par Milman puis Milman et Gromov et bien d'autres. J'essaierai de la présenter sous la forme la plus simple possible pour les non géomètres. Il se trouve qu'elle a réapparu sous la forme d'une notion de concentration pour des vecteurs gaussiens. Il s'agit de travaux de collègues adeptes des méthodes à noyau. Je n'en comprends pas tous les tenants et aboutissements mais il s'agit d'un groupe de travail et du travail il en reste !

Mercredi 3 mars 2021
David Tewodrose
Théorèmes de plongements spectraux et application à l'étude de données massives (video) Depuis une vingtaine d'années, l'étude de données massives a vu apparaitre des méthodes dites non-linéaires de réduction de la dimension, classification, apprentissage semi-supervisé, etc. Certaines de ces techniques reposent sur un théorème de géométrie spectrale, dû à P. Bérard, G. Besson et S. Gallot (1994), qui permet de plonger « assez fidèlement » une variété riemannienne compacte sans bord dans un espace de Hilbert ou euclidien à l'aide des fonctions propres et valeurs propres du Laplacien (ou, alternativement, à l'aide du noyau de la chaleur). Dans cet exposé, je présenterai ce théorème initial et ses raffinements (versions tronquées, quantitatives, non-lisses), et j'expliquerai comment ceux-ci sont appliqués à l'étude de données massives.


2019


Mardi 18 juin 2019

Jeudi 9 mai 2019

Mardi 2 avril 2019
Damien Calaque
Théorie de Morse

Mardi 26 mars 2019

Mardi 12 mars 2019

Mardi 29 janvier 2019
Benjamin Charlier
Méthodes à noyaux

2018


Mardi 18 décembre 2018
Hoel Queffelec et Philippe Castillon
Distances et homologie persistante (suites et fin)

Mardi 11 décembre 2018

Mardi 4 décembre 2018

Mardi 27 novembre 2018

Mardi 20 novembre 2018

Vendredi 9 novembre 2018
Damien Calaque
Présentation générale et organisation du groupe de travail


Ressources

Les références données ci-dessous sont forcément partielles (voire partiales).
En complément de celles-ci, voici une liste alternative très riche et structurée (et quasi disjointe).

Software

- Topology ToolKit.

Monographie

- J.-D. Boissonnat, F. Chazal & M. Yvinec, Geometric and topological inference.

Références introductives

- F. Chazal & B. Michel, An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists
- L. Wasserman, Topological data analysis.
- C.S. Pun, K. Xia & S.X. Lee, Persistent-homology-based machine learning and its applications - a survey.
- à titre récréatif on peut éventuellement consulter cette présentation.

Structure et stabilité des données de persistance

- W. Crawley-Bovey, Decomposition of point-wise finite-dimensional persistence modules.
- Pour la stabilité au sens lipschitzien, voir les travaux de Cohen-Steiner, Edelsbrunner & Harer.
- Pour la généralisation algébrique de la stabilité, voir les travaux de Chazal et al.
- Bauer & Lesnik ont démontré une version encore plus forte de la stabilité algébrique (appelée "induced matching theorem"), via une preuve plus directe.

Réalisations des données de persistance dans des espaces "exploitables" (en général des Hilbert)

- M. Carrière & U. Bauer, On the metric distorsion of embedding persistence diagrams into reproducing kernel Hilbert spaces (contient, entre autres, un résultat négatif pour les réalisations bi-Lipschitz).
- I. Chevyrev, V. Nanda & H. Oberhauser, Persistence paths and signature features in topological data analysis.
- Travaux de Bubenik sur le "persistence landscape" (qui utilisent plus généralement des Banach).
- H. Adams et al., Persistence images: a stable vector representation of persistent homology (ici ils réalisent les données de persistance dans des espaces vectoriels de dimension finie). 
- A. Adcock, E. Carlsson & G. Carlsson, The ring of algebraic functions on persistence barcodes, qui semble avoir été amélioré (au sens de la stabilité) dans : S. Kalisnik, Tropical coordinates on the space of persistent barcodes.

Applications

Classification d'empreintes digitales
- N. Giansiracusa, R. Giansiracusa & C. Moon, Persistent homology machine learning for fingerprint classifications.

Segmentation de formes 3D

- M. Carrière, S.Y. Oudot & M. Ovsjanikov, Stable topological signatures for points on 3d shapes (vous pouvez consulter une présentation simplifiée de ce travail).

Classification linguistique

- A. Port, I. Gheorghita, D. Guth, J.M. Clark, C. Liang, S. Dasu & M. Marcolli, Persistent topology of syntax.
- C. Wolfram, Persistent homology of phonological data: a preliminary study

Quelques notes d'un workshop

Un workshop sur l'homologie persistante organisé par Jérémy Nusa a produit des notes d'exposés de très bonne qualité. Je vous conseille en particulier les notes d'Adélie Garin (pour une introduction générale à l'homologie persistante et aux résultats de stabilité) et de Daniel Robert-Nicoud (pour une approche plus computationnelle de l'homologie persistante).