Verhaltensinduzierte Spiegel-Prox Temporal-Difference Lernen für schnellere Off-Policy Vorhersage
· Quelle: arXiv cs.AI
Ein neuer Lernansatz namens STHTD-MP wurde vorgeschlagen, der die Vorhersage außerhalb der Politik verbessert, indem er eine lineare Funktionen-Ansatz…