LLMs glauben falschen Aussagen auch nach expliziten Warnungen, dass sie falsch sind.

Ein kürzlich durchgeführtes Studium zur sogenannten “Negligenz der Negation” hat ergeben, dass große Sprachmodelle (LLMs) nicht skeptisch reagieren, wenn ihnen falsche Informationen vorgelegt werden, auch wenn sie explizit darauf hingewiesen werden, dass sie falsch sind. Stattdessen scheinen sie Muster in den Trainingsdaten zu erkennen und falsche Aussagen in ihre Darstellungen aufzunehmen, unabhängig von klaren Warnungen, dass sie falsch sind. Dies könnte erklären, warum LLMs häufig falsche Informationen generieren und hat Auswirkungen auf die Qualität der Trainingsdaten.

Die Forscher haben ein Set falscher Aussagen erstellt und gebeten den LLMs, Dokumente zu erstellen, die diese Aussagen und Unterstreichungen enthielten, die sie unterstützten. Auch wenn sie explizit darauf hingewiesen wurden, dass die Aussagen falsch waren, nahmen die LLMs die falsche Information in ihre Darstellungen auf. Dies deutet darauf hin, dass LLMs eher auf Muster in den Trainingsdaten als auf die explizite Warnung, dass die Information falsch ist, reagieren.

Diese Nachricht ist wichtig, da sie die Notwendigkeit hervorhebt, die Trainingsdaten so zu strukturieren, dass die Verbreitung von falschen Informationen minimiert wird. Darüber hinaus unterstreicht sie die Bedeutung der Entwicklung von Sprachmodellen, die zwischen wahrer und falscher Information unterscheiden können, was einen erheblichen Einfluss auf die Zuverlässigkeit von künstlichen Intelligenz-Systemen insgesamt haben kann.

Originalartikel lesen auf Ars Technica AI

Diese Zusammenfassung ist eine informationelle Synthese von dataqbs.com. Alle Rechte am Originalinhalt liegen beim Autor und dem genannten Medienunternehmen. Wir handeln ausschließlich als Kuratoren von Technologie-Nachrichten und beanspruchen keine Urheberschaft.