Ein Framework zur Überprüfung parametrischer Werkzeugkenntnisse in LLMs
· Quelle: arXiv cs.AI
Die großen Sprachmodelle stoßen bei der Wiedergewinnung von Werkzeugen auf ein Engpassproblem, wenn sie als Agenten auf große Kataloge von Werkzeugen deployt werden. Auch wenn die auf Embeddings basierenden Wiedergewinnungsansätze effizient sein können, erfassen sie möglicherweise nicht vollständig die spezifische Semantik der Werkzeuge. Um dies anzugehen, wurde ein parametrischer Werkzeugwiedergewinnungsansatz entwickelt, der jedes Werkzeug als virtuelles Token im Vokabular des Sprachmodells codiert und in zwei Schritten angepasst, um das Modell als Wiedergewinnungssystem zu nutzen. Allerdings können traditionelle Werkzeugwiedergewinnungsprüfungen möglicherweise nicht aufdecken, ob das Modell die Werkzeuge wirklich versteht. ToolSense, ein offener Diagnoseframework, wurde eingeführt, das automatisch drei Prüfungen generiert, um die Werkzeugverständnisfähigkeit des Modells zu bewerten. Durch die Anwendung von ToolSense auf einen großen Werkzeugkatalog wurde eine Dissoziation zwischen Wissen und Werkzeugwiedergewinnung in einigen Modellen entdeckt, was darauf hindeutet, dass, trotz guter Leistungen in der Wiedergewinnung, einige Modelle die Werkzeuge möglicherweise nicht wirklich verstehen. Diese Nachricht ist wichtig, da sie die Notwendigkeit hervorhebt, die Werkzeugverständnisfähigkeit in Sprachmodellen zu bewerten, was möglicherweise Auswirkungen auf die Entwicklung von E-Commerce-Systemen und Marketplaces wie open-garage haben könnte, die eine genaue Verständnisfähigkeit von Werkzeugen und Produkten erfordern. Darüber hinaus kann die Fähigkeit, die Werkzeugverständnisfähigkeit zu bewerten, entscheidend sein, um die Effizienz und Genauigkeit bei der Wiedergewinnung von Werkzeugen und Produkten in diesen Systemen zu verbessern.
Originalartikel lesen auf arXiv cs.AI
Diese Zusammenfassung ist eine informationelle Synthese von dataqbs.com. Alle Rechte am Originalinhalt liegen beim Autor und dem genannten Medienunternehmen. Wir handeln ausschließlich als Kuratoren von Technologie-Nachrichten und beanspruchen keine Urheberschaft.