Skip to main content

Chapter 8 Apprentissage par renforcement discret

Dans ce chapitre on ce concentrera comme précédemment sur des problèmes avec espaces d'états et d'action dénombrable et de petites tailles. On parle donc ici de méthodes tabulé. Les algorithmes de plannification type plus court chemin et de programmation dynamique introduit précédemment nécessitait la connaissance du modèle de MDP (il faut connaitre \(p(s^{'}\mid s,a)\) et \(r(s,a)\)) qui était intégralement parcouru de nombreuses fois. L' apprentissage par renforcement lui représente une série de méthodes permettant de lever ces contraintes. On va dans la suite séparer deux type de méthodes. La première famille est celle des >méthodes sans modèle qui n'utilise pas un modèle (probabilité de transition et fonction de récompense) mais juste une intéraction avec l'environement qui donne la transition entre deux états connaissant une action. La seconde est celle des méthodes avec modèle. Dans ce cas la on propose de construire/apprendre le modèle avant de faire de la plannification. Cependant on utilise, en général, des algorithmes de plannification qui n'explore pas toute les transitions.