Séance Séminaire

Soutenances de thèses

vendredi 29 septembre 2023 à 9h00 - Campus Saint Priest, Bâtiment 2, 860 Rue de St-Priest

Camille Garcin (IMAG, INRIA, Université de Montpellier)

Fonctions de perte pour la classification à valeurs d’ensembles

La dernière décennie a été marquée par l'émergence et l'essor des techniques d'apprentissage profond, conduisant à d'énormes progrès dans la vision artificielle, le traitement du langage naturel et la reconnaissance vocale. Ces avancées sont dues aux améliorations matérielles et aux nouvelles architectures, notamment les réseaux neuronaux convolutifs et les "transformers", utilisés dans des applications populaires telles que Siri, Deepl, et ChatGPT. Un défi majeur du domaine de la vision artificielle a été ImageNet, une base de données d'un million d'images réparties en 1 000 classes, utilisée comme référence pour mesurer les performances des modèles. Les premiers résultats affichaient une erreur top-1 de 37,5%, tandis que les meilleurs modèles atteignent maintenant 9% d'erreur top-1. Cependant, ImageNet diffère des situations réelles car elle présente des classes artificiellement équilibrées et peu de similarités entre elles. Pour relever des défis plus réalistes, il est essentiel de se concentrer sur des tâches de catégorisation visuelle à grain fin, impliquant des classes similaires et des distributions déséquilibrées avec des classes rares. Pour ce faire, dans cette thèse nous prendrons pour cas d'étude Pl@ntNet, une application écologique basée sur l'apprentissage coopératif, qui permet aux utilisateurs d'identifier les plantes à partir d'images.
Dans un tel contexte d'ambiguïté, les classificateurs multi-classes traditionnels qui ne renvoient qu'une seule proposition de classe ne suffisent pas.
C'est pourquoi dans ce manuscrit nous étudierons les classificateurs à valeurs d'ensembles, qui retournent pour chaque image un ensemble de classes possibles.
Les classificateurs à valeurs d'ensembles sont utiles s'ils renvoient un nombre restreint de classes pour chaque image. Ainsi, il existe plusieurs contraintes sur la taille des ensembles retournés.
Dans cette thèse, nous étudions deux types de contraintes: une contrainte de taille ponctuelle, où le classificateur renvoie exactement K classes candidates pour chaque exemple (classification top-K), et une contrainte sur la taille moyenne des ensembles retournés (classification average-K).
Afin d'optimiser ces classificateurs à valeurs d'ensembles, nous introduisons de nouvelles fonctions de perte pour améliorer les performances des modèles d'apprentissage profond, une pour chaque type de contrainte.
La fonction de perte pour la classification top-K se base sur une fonction de perte charnière combinée à un lissage de la fonction top-K. Pour la classification average-K, nous proposons un modèle à deux têtes, où une tête est chargée d'identifier des classes candidates pour un exemple donné, et l'autre tête optimise ces suggestions avec une entropie croisée binaire.
Les expériences sont menées sur un jeu de données créé à partir des données de Pl@ntNet, Pl@ntNet-300K, constitué de 306 146 images de plantes avec un fort déséquilibre de classes et des ambiguïtés visuelles importantes.
Les résultats montrent que les nouvelles fonctions de perte améliorent significativement les performances par rapport à l'entropie croisée, en particulier dans les situations où l'incertitude est élevée.