Séminaire de Probabilités et Statistique :
Le 14 mars 2011 à 15:00 - UM2 - Bât 09 - Salle 331 (3ème étage)
Présentée par Garivier Aurélien - LTCI, CNRS - TELECOM ParisTech
L'algorithme KL-UCB pour les bandits bornés, et au delà
L'apprentissage par renforcement se distingue des autres théories
d'apprentissage statistique en qu'il place en son coeur la dimension
temporelle, mais aussi interactive, du phénomène d'apprentissage. Les
modèles les plus simples qui s'y rattachent sont communément appelés
"problèmes de bandits" : un agent, faisant face à une collection de
bandits manchots plus ou moins avantageux, doit à chaque instant
choisir l'un d'eux et reçoit une récompense en conséquence - avec pour
objectif de maximiser la somme des récompenses reçues. Derrière cette
mise en situation un peu baroque, on devine sans peine une grande
variété de motivations pratiques, des essais cliniques au routage de
paquets sur internet.
Parmi les stratégies proposées en apprentissage par renforcement, on
distingue les algorithmes optimistes : ils agissent à chaque instant
comme s'ils se trouvaient dans l'environnement le plus favorable
parmi tous ceux qui rendent les observations passées suffisamment
vraisemblables. Nous verrons comme le paradigme optimiste peut être mis
en oeuvre efficacement et simplement ici, et comment l'algorithme
KL-UCB, en introduisant une notion de divergence sur l'espace des
récompenses adaptée au problème, conduit à des résultats
significativement meilleurs que ses concurrents.
Basé sur l'article :
The KL-UCB Algorithm for Bounded Stochastic Bandits and Beyond
par Aurélien Garivier and Olivier Cappé
disponible (à partir du 15/02) sur arXiv