gitter-badger / ruta-optima-qlearning Goto Github PK
View Code? Open in Web Editor NEWDesafío Id #2. Aprendizaje de la ruta óptima en un laberinto. Se utilizará q-learning para calcular los valores Q, a partir de los que se extraerá la política óptima. Movimiento estocástico y modelo desconocido.
License: MIT License