dataqbs

ToolSense: Un Marco de Diagnóstico para Auditoría del Conocimiento de Herramientas Paramétricas en LLMs

· Fuente: arXiv cs.AI

Los modelos de lenguaje grandes enfrentan un cuello de botella en la recuperación de herramientas cuando se despliegan como agentes sobre grandes catálogos de herramientas. Aunque los enfoques de recuperación basados en embeddings pueden ser eficientes, pueden no capturar completamente la semántica especializada de las herramientas. Para abordar esto, se ha desarrollado un enfoque de recuperación de herramientas paramétricas que codifica cada herramienta como un token virtual anexado al vocabulario del modelo de lenguaje, ajustado en dos etapas para utilizar el modelo como recuperador. Sin embargo, las pruebas de recuperación de herramientas tradicionales pueden no revelar si el modelo realmente entiende las herramientas. Se ha introducido ToolSense, un marco de diagnóstico de código abierto que genera automáticamente tres pruebas para evaluar la comprensión de las herramientas por parte del modelo. Al aplicar ToolSense a un catálogo de herramientas grande, se ha descubierto una disociación entre el conocimiento y la recuperación de herramientas en algunos modelos, lo que sugiere que, a pesar de su buen desempeño en recuperación, algunos modelos pueden no entender realmente las herramientas. Esta noticia es importante porque resalta la necesidad de evaluar la comprensión de las herramientas en los modelos de lenguaje, lo que puede tener implicaciones para el desarrollo de sistemas de comercio electrónico y marketplaces, como open-garage, que requieren una comprensión precisa de las herramientas y productos. Además, la capacidad de evaluar la comprensión de las herramientas puede ser crucial para mejorar la eficiencia y la precisión en la recuperación de herramientas y productos en estos sistemas.

Leer artículo original en arXiv cs.AI

Este resumen es una síntesis informativa elaborada por dataqbs.com. Todos los derechos sobre el contenido original pertenecen a su autor y al medio de comunicación citado. Nosotros solo actuamos como curadores de noticias tecnológicas, sin reclamar autoría alguna.

Lee esto en English · Deutsch