29I. L’apprentissage: généralités– Définition, exemples illustratifs, motivations, historiqueII. Construire un système d’apprentissageIII.L’apprentissage par renforcementIV. Exemple illustratif (TD)© J-D. ZUCKER LIP630III. Apprentissage par renforcement: situationEnvironnementPerceptionRécompenseAction✓Agent autonome✓Apprentissage en ligne✓Apprentissage modifie l'env.✓Monde peut être non déterministe© J-D. ZUCKER LIP631III.1. Apprentissage par renforcement (définition)Apprentissage par renforcement (ou interaction)But: (Apprendre à) prendre la meilleure action dans une situation SiL'environnement donne une récompense r pour une action a dans l'état S (ouipour une séquence d'actions)Origine: apprentissage des animaux (par exemple souris)Aujourd'hui: de l'essai-erreur à la planification controlée≠ Apprentissage supervisé:un professeur dit la bonne action à prendre en Si(par exemple: dans la position S il faut jouer sur la case 33)i© J-D. ZUCKER LIP632Pourquoi apprendre par renforcement ?• Le signal d'un professeur est rarement disponible• Une récompense est plus facile à spécifier qu'un comportement:+ for removing dirt- for consuming energy- - for damaging furniture- - - for terrorizing cat© J-D. ZUCKER LIP633I.2. Exemples illustratifs ✓ Les jeux (dans certains cas): jugements intuitifs, blitz...✓ A la naissance, une gazelle tient à peine debout...✓ Attraper son paquet de céréal favori, un ballon,...✓ Stratégie d'un robot (se ...
Voir