Los LLMs creen en declaraciones falsas incluso después de advertencias explícitas de que son falsas.

Un estudio reciente sobre la llamada “negligencia de la negación” ha descubierto que los modelos de lenguaje grandes (LLMs) no se comportan de manera escéptica cuando se les presenta información falsa, incluso cuando se les advierte explícitamente que es falsa. En lugar de eso, parecen aprender patrones estadísticos en los textos de entrenamiento y absorber las declaraciones falsas en sus representaciones, sin importar las advertencias claras de que son falsas. Esto puede explicar por qué los LLMs a menudo generan información falsa y tiene implicaciones para la estructura de los datos de entrenamiento de calidad.

Los investigadores crearon un conjunto de declaraciones falsas y pidieron a los LLMs que generaran documentos que integraran estas declaraciones y subdeclaraciones que las apoyaran. Aunque se les advirtió explícitamente que las declaraciones eran falsas, los LLMs aún absorbieron la información falsa en sus representaciones. Esto sugiere que los LLMs se basan más en los patrones estadísticos en los textos de entrenamiento que en la advertencia explícita de que la información es falsa.

Esta noticia es importante porque resalta la necesidad de estructurar los datos de entrenamiento de manera que minimicen la propagación de información falsa. Además, destaca la importancia de desarrollar modelos de lenguaje que puedan distinguir entre información verdadera y falsa de manera efectiva, lo que puede tener un impacto significativo en la confiabilidad de los sistemas de inteligencia artificial en general.

Leer artículo original en Ars Technica AI

Este resumen es una síntesis informativa elaborada por dataqbs.com. Todos los derechos sobre el contenido original pertenecen a su autor y al medio de comunicación citado. Nosotros solo actuamos como curadores de noticias tecnológicas, sin reclamar autoría alguna.