Séance Séminaire

Soutenances de thèses

Friday 28 November 2025 à 14:00 - Bat. 9 - salle 109

Orlane Rossini (Université de Montpellier)

Apprentissage par renforcement basé sur un modèle pour le contrôle de processus de décision semi-markoviens déterministes par morceaux partiellement observables

La prise de décision séquentielle dans des systèmes partiellement observables et à dynamique inconnue constitue un défi majeur, notamment lorsque les données disponibles sont limitées. Ce type de situation est fréquent en médecine, où l’état du patient est observé de manière intermittente, et où la progression de la maladie varie fortement d’un individu à l’autre. Dans ce contexte, les stratégies de traitement personnalisées visent à adapter le suivi à la dynamique propre de chaque patient, afin de réduire les traitements inutiles et de favoriser une détection précoce des rechutes.
Pour cela, il est nécessaire de disposer de modèles capables de capturer une dynamique globale tout en s’adaptant aux spécificités individuelles.

Les Processus de Markov Déterministes par Morceaux (PDMPs) sont particulièrement adaptés pour modéliser des maladies comme le cancer, dont l’évolution est largement déterministe, ponctuée d’événements aléatoires.
Cependant, le contrôle optimal de tels processus est difficile, notamment en cas d'observations partielles ou d’incertitude sur le modèle.

Dans cette thèse, je propose une approche numérique permettant de calculer une stratégie $\epsilon$-optimale pour un PDMP complètement observé à dynamique connue. L’étude se poursuit dans le cadre partiellement observable en transformant le problème en un Processus de Décision Markovien Partiellement Observé (POMDP), résolu à l’aide d’algorithmes d’apprentissage par renforcement profond, capables de gérer l’espace d'état continu.
Enfin, afin d’intégrer l’incertitude sur les dynamiques, nous reformulons le problème en un POMDP Bayésien Adaptatif (BAPOMDP), dans lequel la dynamique est modélisée de manière probabiliste. Cette dernière formulation permet d’apprendre des stratégies de contrôle robustes et personnalisées à partir de données limitées et incertaines.