Apprentissage par Renforcement Processus Décisionnels de Markov

pages

Catalan

Documents

Écrit par
Alain Dutech

Publié par
Seym

Lire

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

pages

Catalan

Documents

Lire

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Publié par

Seym

Nombre de lectures

Langue

Catalan

Voir

Publié par

Seym

Nombre de lectures

Langue

Catalan

Apprentissage par Renforcement Processus D´ecisionnels de Markov Alain Dutech Equipe MAIA - LORIA - INRIA Nancy, France Web :http://www.loria.fr/~dutech Mail :Alain.Dutech@loria.fr 13 janvier 2007 Introduction Form Apprendre Conclusion Des exemples inspirants? I Animal apprenant `a trouver de la nourriture en ´evitant des pr´edateurs I Robot qui apprend `a trouver sa station d’accueil pour se recharger I Un programme qui apprend `a jouer au backgammon I Une ´equipe de foot qui essaye de trouver des stat´egies pour marquer des buts I Un drone h´elicopt`ere apprenant `a voler sur le dos I Un enfant apprenant `a se servir d’une cuill`ere I Un bras articul´e essayant de faire tenir une baguette en ´equilibre I Un rat qui apprend `a appuyer sur le bon bouton pour recevoir de la nourriture. I ... Page 2Introduction Form Apprendre Conclusion Diﬀ´erent modes d’apprentissage modif modif 2˜Y RecE = (Y −Y )i ti i i Apprentissage ˜X ClassYi iiArtiﬁciel I Apprentissage Supervis´e On doit connaˆıtre exactement la valeur de la sortie d´esir´ee. On apprend en utilisant l’erreur exacte commise. I Apprentissage par Renforcement Une indication de la qualit´e d’un choix. On n’a pas besoin de connaˆıtre le choix exact `a faire. I Apprentissage Non-Supervis´e Que des entr´ees, on travaille sur les corr´elations et les similarit´es de ces donn´ees. Page 3 Introduction Form Apprendre Conclusion Agent apprenant S2 Rec. +5Env S1 Action?? action (observation, récompense) Rec. -2 B S S3 n Action?? (comportement) Page 4Introduction Form Apprendre Conclusion Comment faire concr`etement? Prenons un exemple concret : Je suis dans l’´etat : 34, je re¸cois : 0, je choisi l’action :1. ” 43, ” 1, ” 4. ” 17, ” 0, ” 3. ” 34, ” 0, ” 1. ” 23, ” 20, ” 2. ” 21, ” -1, ” 2. ” 43, ” 0, ” 2. ” 22, ” 10, ” 3. Question Comment automatiser le processus permettant d’apprendre `a choisir une bonne action? Page 5 Introduction Form Apprendre Conclusion Evaluer des choix I Comment savoir si une action, ou une s´equence d’action est un bon choix? (“delayed reward”, “credit assignement”) I → Crit`eres de performance s’appuyant sur la r´ecompense P N−1 I le crit`ere ﬁni : E[ r ].tt=0 P∞ t I le crit`ere γ-pond´er´e : E[ γ r ]tt=0 P n−11 I le crit`ere moyen : lim E[ r ]n→∞ tn t=0 Page 6Introduction Form Apprendre Conclusion Formalisme : Processus de D´ecision Markovien D´eﬁnition d’un MDP MDP =hS,A,p(),r()i ou` : IS : ensemble d’´etats IA : ensemble d’actions I p(s ,a ,s ) = Pr(s |s ,a ) : transitionst t t+1 t+1 t t I r(s,a) : r´ecompenses R´esoudre un MDP Trouver des politiques π :S −→4(A) qui maximisent l’esp´erance du crit`ere de r´ecompense sur le long terme. Page 7 Introduction Form Apprendre Conclusion Fonction Valeur Concept essentiel, le but ´etant d’estimer la “qualit´e” d’un ´etat. ∞X π tV (s) = E[ γ r|s = s] (1)t 0 t=0 Equation de Bellman X π 0 π 0V (s) = r(s)+γ{ p(s,π(s),s )V (s )} (2) 0s ∈S Rem : la fonction valeur d´epend de la politique choisie π. A quoi ca¸ sert? Page 8Introduction Form Apprendre Conclusion Calculer la fonction valeur d’une politique π On peut r´esoudre le syst`eme suivant : X 0 0V(s) = r(s,π (s))+γ Pr(s | s,π (s))V(s ), ∀s∈Sn n 0s ∈S ou utiliser une m´ethode (approximative) it´erative Entr´ee : π∈4(A); V (s)∈R; n← 0; ∈R;0 1: repeat 2: for s∈S do P 0 03: V (s)← r(s,a)+γ Pr(s | s,π(s))V (s )0n+1 ns ∈S 4: end for 5: n← n+1 6: untilk V −V k

Voir

Infos