Este repositório contém os materiais usados em aula no curso de verão Introdução ao Aprendizado por Reforço oferecido pelo Curso de Verão do IME-USP de 11/02/2020 a 16/02/2020.
LIAMF: Grupo PAR (Planejamento e Aprendizado por Reforço)
Professores: Ângelo Gregório Lovatto (@angelolovatto), Thiago Pereira Bueno (@thiagopbueno)
Monitor: Renato Scaroni (@renato-scaroni)
Coordenadora: Leliane Nunes de Barros
Introdução aos Processos de Decisão Markovianos; Gradiente de política. Algoritmo REINFORCE e a técnica da score-function; Método actor-critic (A2C); Aprendizado da função valor para redução da variância do gradiente da política. Compromisso entre viés e variância; O curso será desenvolvido utilizando slides e atividades práticas com exercícios de modelagem de problemas e aplicação de métodos aprendidos em problemas benchmark.
Requisito: Familiaridade com estatística, probabilidade básicas e cálculo no R^n. Apesar de todos os conceitos necessários serem apresentados durante o curso.
Público: Profissionais da área de IA. Alunos de graduação e pós-graduação interessados na área de aprendizado por reforço.
- Material Preliminar: Fundamentação matemática e estatística para o acompanhamento do curso
- Tutorial de configuração do ambiente
- Material adicional sobre entropia
Objetivos:
- Familiarizar-se com os objetivos e formato do curso
- Ter uma ideia geral sobre possíveis aplicações de RL
- Aprender os conceitos básicos e vocabulário de RL
- Entender as diferenças entre RL e Supervised Learning (SL)
Materiais:
Objetivos:
- Entender a abordagem de otimização de políticas como busca no espaço de parâmetros da política
- Implementar um primeiro agente baseado no algoritmo REINFORCE
- Familiarizar-se com a API básica de construção de modelos (i.e., redes neurais) em Keras
- Familiarizar-se com métodos de Deep Learning usando TensorFlow 2.X
Materiais:
Objetivos:
- Relacionar as propriedades do estimador REINFORCE com a performance do agente
- Verificar experimentalmente o efeito de redução de variância do estimador de Policy Gradient calculado com reward-to-go
- Incorporar a função Valor como baseline para os retornos das trajetórias no REINFORCE
- Familiarizar-se com o aprendizado de função Valor via regressão sobre os retornos das trajetórias
Materiais:
Objetivos:
- Familiarizar-se com os componentes Actor e Critic
- Entender o papel da função Valor na estimativa truncada dos retornos
- Ter um primeiro contato com truques de implementação tipicamente utilizados e RL
Materiais:
Objetivos:
- Entender algumas das limitações e dificuldades fundamentais de Deep RL
- Familiarizar-se com técnicas avançadas de algoritmos Actor-Critic
- Ter uma visão geral sobre diferentes áreas de pesquisa em RL
Materiais:
- Reinforcement Learning: An Introduction (Sutton & Barto 2018, 2nd Edition)
- Deep Learning (Goodfellow, Bengio and Courville, 2016)
- OpenAI Spinning Up: Introduction to RL
- Deep Reinforcement Learning: Pong from Pixels
- Intuitive RL (Reinforcement Learning): Introduction to Advantage-Actor-Critic (A2C)
- An overview of gradient descent optimization algorithms
- Neural Networks & Backpropagation (3Blue1Brown)
- MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL)
- CS 285: Deep RL, Decision Making, and Control: Policy Gradients
- CS 285: Deep RL, Decision Making, and Control: Actor-Critic
- Deep RL Bootcamp Lecture 4A: Policy Gradients:
- Deep RL Bootcamp Lecture 4B: Policy Gradients Revisited
- OpenAI Baselines: ACKTR & A2C
- Challenges of Real-World Reinforcement Learning (Dulac-Arnold, Mankowitz, and Hester, 2019)
- Reinforcement Learning Applications (Li, 2019)
- RECSIM: A Configurable Simulation Platform for Recommender Systems (Ie, Eugene, et al., 2019)
- Policy Gradient Methods for Reinforcement Learning with Function Approximation (Sutton, R.S., McAllester, D.A., Singh, S.P. and Mansour, Y., 2000)
- Deep Learning in Neural Networks: An Overview (Schmidhuber, 2014)
- An overview of gradient descent optimization algorithms (Ruder, 2017)