Materia optativa: Aprendizaje por Refuerzos
Unidad 1.
Introducción al Aprendizaje por Refuerzos. Elementos del Aprendizaje por Refuerzos: Reward, Valor, Política y Modelos. Interfaz Agente-Entorno. Procesos de Decisión de Markov Retornos y Episodios. Estimación de la Función (Óptima) de Valor y Acción-Valor: Ecuación de Bellman.
Unidad 2.
Cálculo de la Política Óptima. Programación Dinámica: Iteración de Política e Iteración de Valor. Aprendizaje por Diferencias Temporales. Algoritmos On-Policy y Off-Policy. Double Q- learning. Afterstates. Trazas de Elegibilidad: Sarsa(λ).
Unidad 3.
Planificación y Modelos en Aprendizaje por Refuerzos. Arquitectura Dyna: integración de planificación, actuación y aprendizaje. Dyna-Q y Dyna-Q+. Prioritized Sweeping. Algoritmos Rollout: Monte Carlo Tree Search (MCTS).
Unidad 4.
Métodos de solución aproximada. Coarse Coding y Tile Coding. Aproximación de la Función de Valor mediante Redes Neuronales. Aprendizaje por Refuerzos Profundo.
– Juan Barsce (UTN – Villa María)
– Jorge Palombarini (UTN – Villa María)
– Sutton R., Barto A. Reinforcement Learning: An Introduction (2nd ed.). MIT Press, 2018.
– Szepesvári, C. Algorithms for Reinforcement Learning. Morgan & Claypool Publishers, 2010.
– Mnih et al. Human-level control through Deep Reinforcement Learning. Nature 518, p. 529–533, 2015.
– Silver et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, p. 484–489, 2016.
– Silver et al. Mastering the game of Go without human knowledge. Nature 550, p. 354–359, 2017.
– Li, Y. Deep Reinforcement Learning: An Overview. arXiv preprint: arXiv:1701.07274v5 [cs.LG], 2017.
16 horas sincrónicas + 8 horas de apoyo.
Se llevará a cabo una evaluación individual en base a los TPs correspondientes que integran el contenido de las unidades. Dichos TPs consistirán en implementar computacionalmente algoritmos de aprendizaje empleando preferentemente el lenguaje de programación Python. A su vez, la aprobación del curso requerirá la entrega de un práctico integrador basado en la aplicación de uno o varios algoritmos vistos en el curso a partir de la propuesta de un dominio de interés del alumno.