Verhaltensinduzierte Spiegel-Prox Temporal-Difference Lernen für schnellere Off-Policy Vorhersage

Ein neuer Lernansatz namens STHTD-MP wurde vorgeschlagen, der die Vorhersage außerhalb der Politik verbessert, indem er eine lineare Funktionen-Ansatz verwendet. Bei diesem Ansatz wird die Übergangsinformation der Verhaltenspolitik verwendet, um eine informativere Aktualisierungsgeometrie zu erstellen, anstatt der kovarianz-mäßigen Merkmeterik, die in vorherigen Methoden verwendet wurde. Der STHTD-MP hält eine einzige Lernrate für die primären und sekundären Variablen fest und wendet einen Mirror-Prox-Vorherschritt zur korrigierenden Schrittkombination des resultierenden Hybrid-Sesselpunktsoperators an. Es wurde gezeigt, dass dieser Ansatz unter bestimmten Bedingungen konvergiert und einen geringeren Mittelvertragsfaktor als andere Methoden aufweist, wenn die durch das Verhalten induzierte Metrik die Sesselpunktsgeometrie verbessert. Dies ist wichtig, da es eine schnellere und genaue Vorhersage in automatischen Lernumgebungen ermöglichen kann, was wiederum einen signifikanten Einfluss auf die Fähigkeit von künstlichen Intelligenz-Systemen haben kann, in komplexen Situationen informierte Entscheidungen zu treffen. Die Forschung in diesem Bereich kann Auswirkungen auf die Entwicklung von fortschrittlicheren und effizienteren künstlichen Intelligenz-Systemen haben.

Originalartikel lesen auf arXiv cs.AI

Diese Zusammenfassung ist eine informationelle Synthese von dataqbs.com. Alle Rechte am Originalinhalt liegen beim Autor und dem genannten Medienunternehmen. Wir handeln ausschließlich als Kuratoren von Technologie-Nachrichten und beanspruchen keine Urheberschaft.