Saltar al contenido

Materia optativa: Aprendizaje por Refuerzos

Temario

Unidad 1.

Introducción al Aprendizaje por Refuerzos. Elementos del Aprendizaje por Refuerzos: Reward, Valor, Política y Modelos. Interfaz Agente-Entorno. Procesos de Decisión de Markov Retornos y Episodios. Estimación de la Función (Óptima) de Valor y Acción-Valor: Ecuación de Bellman.

Unidad 2.

Cálculo de la Política Óptima. Programación Dinámica: Iteración de Política e Iteración de Valor. Aprendizaje por Diferencias Temporales. Algoritmos On-Policy y Off-Policy. Double Q- learning. Afterstates. Trazas de Elegibilidad: Sarsa(λ).

Unidad 3.

Planificación y Modelos en Aprendizaje por Refuerzos. Arquitectura Dyna: integración de planificación, actuación y aprendizaje. Dyna-Q y Dyna-Q+. Prioritized Sweeping. Algoritmos Rollout: Monte Carlo Tree Search (MCTS).

Unidad 4.

Métodos de solución aproximada. Coarse Coding y Tile Coding. Aproximación de la Función de Valor mediante Redes Neuronales. Aprendizaje por Refuerzos Profundo.

Equipo docente

Juan Barsce (UTN – Villa María)

Jorge Palombarini (UTN – Villa María)

Bibliografía básica

Sutton R., Barto A. Reinforcement Learning: An Introduction (2nd ed.). MIT Press, 2018.

Szepesvári, C. Algorithms for Reinforcement Learning. Morgan & Claypool Publishers, 2010.

Mnih et al. Human-level control through Deep Reinforcement Learning. Nature 518, p. 529–533, 2015.

Silver et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, p. 484–489, 2016.

Silver et al. Mastering the game of Go without human knowledge. Nature 550, p. 354–359, 2017.

– Li, Y. Deep Reinforcement Learning: An Overview. arXiv preprint: arXiv:1701.07274v5 [cs.LG], 2017.

Carga horaria

16 horas sincrónicas + 8 horas de apoyo.

Método de evaluación

Se llevará a cabo una evaluación individual en base a los TPs correspondientes que integran el contenido de las unidades. Dichos TPs consistirán en implementar computacionalmente algoritmos de aprendizaje empleando preferentemente el lenguaje de programación Python. A su vez, la aprobación del curso requerirá la entrega de un práctico integrador basado en la aplicación de uno o varios algoritmos vistos en el curso a partir de la propuesta de un dominio de interés del alumno.