Mardi 12 novembre 2019 - 14:00

Salle de conférences IRMA
  • Directeur de recherche : Pierre Gançarski Professeur des universités, Université de Strasbourg ICUBE
  • Co-encadrante : Myriam Maumy-Bertrand, Université de Strasbourg Maître de conférences, IRMA
  • Encadrant industriel : Hubert Wassner
  • Rapporteur : Antoine Cornuèjols, Professeur des universités, AgroParisTech
  • Rapporteur : Aurélien Garivier, Professeur des universités, E.N.S. de Lyon
  • Examinateur : Jérémie Mary, Maître de conférences, Senior Research Staff, université de Lille, CRITEO
  • Examinateur : Cédric Wemmert, Professeur des universités, université de Strasbourg
  • Invité : Gilbert SAPORTA Professeur émérite C.N.A.M., Paris

Dans de nombreux domaines (santé, vente en ligne, …) concevoir ex nihilo une solution optimale répondant à un problème défini (trouver un protocole augmentant le taux de guérison, concevoir une page Web favorisant l'achat d'un ou plusieurs produits, ...) est souvent très difficile voire impossible. Face à cette difficulté, les concepteurs (médecins, web designers, ingénieurs de production,...) travaillent souvent de façon incrémentale par des améliorations successives d'une solution existante. Néanmoins, définir les modifications les plus pertinentes reste un problème difficile. Pour tenter d'y répondre, une solution adoptée de plus en plus fréquemment consiste à comparer concrètement différentes alternatives (appelées aussi variations) afin de déterminer celle(s) répondant le mieux au problème via un A/B Test. L'idée est de mettre en oeuvre réellement ces alternatives et de comparer les résultats obtenus, c'est-à-dire les gains respectifs obtenus par chacune des variations. Pour identifier la variation optimale le plus rapidement possible, de nombreuses méthodes de test utilisent une stratégie d'allocation dynamique automatisée. Le principe est d'allouer le plus rapidement possible et automatiquement, les sujets testés à la variation la plus performante, par un apprentissage par renforcement. Parmi les méthodes possibles, il existe en théorie des probabilités les méthodes de bandit manchot. Ces méthodes ont montré leur intérêt en pratique mais également des limites, dont en particulier un temps de latence (c'est-à-dire un délai entre l'arrivée d'un sujet à tester et son allocation) trop important, un déficit d'explicabilité des choix et la non-intégration d’un contexte évolutif décrivant le comportement du sujet avant d’être testé. L'objectif global de cette thèse est de proposer une méthode générique d'A/B test permettant une allocation dynamique en temps réel capable de prendre en compte les caractéristiques des sujets, qu'elles soient temporelles ou non, et interprétable a posteriori.