Aprendizaje Temporal-Diferencial de Proximidad con Reflejo Inducido por Comportamiento para Predicciones Off-Política Más Rápidas
· Fuente: arXiv cs.AI
Se ha propuesto un nuevo método de aprendizaje por diferencias temporales llamado STHTD-MP, que mejora la predicción fuera de política utilizando una…