Google AI hat ein neuartiges Framework für maschinelles Lernen namens AGREE, mit dem Ziel, Ungenauigkeiten in großen Sprachmodellen (LLMs) zu reduzieren. Diese Ungenauigkeiten, die oft als „Halluzinationen“ bezeichnet werden, treten auf, wenn LLMs Reaktionen hervorrufen, die falsch oder unsinnig sind, insbesondere in Kontexten, die umfangreiches Weltwissen erfordern.

Bewältigung von Halluzinationsherausforderungen

Das Phänomen der Halluzinationen ist besonders problematisch in Bereichen wie Nachrichtenberichterstattung und Bildung, wo die sachliche Genauigkeit von größter Bedeutung ist. Zu den traditionellen Methoden zur Milderung dieser Fehler gehören das nachträgliche Zitieren und das nachträgliche Hinzufügen von Zitaten Generieren von Antworten, aber dieser Ansatz ist durch die vorhandene Wissensbasis des LLM begrenzt. Die auf Eingabeaufforderungen basierende Grundlage, die auf den Anweisungenfolgefähigkeiten des Modells beruht, erfüllt häufig nicht die hohen Standards der sachlichen Genauigkeit, die in realen Anwendungen erforderlich sind.

Das AGREE-Framework

AGREE, das für Adaptation for Grounding Enhancement steht, stellt ein lernbasiertes Framework vor, das es LLMs ermöglicht, ihre Antworten selbst zu begründen und genaue Zitate bereitzustellen. Während der Trainingsphase optimiert AGREE LLMs mithilfe synthetischer Daten aus unbeschrifteten Abfragen. Dieser Prozess ermöglicht es den Modellen, ihre Behauptungen selbst zu begründen, indem sie ihren Antworten Zitate hinzufügen. Zum Zeitpunkt des Tests verwendet AGREE eine iterative Inferenzstrategie, die es LLMs ermöglicht, zusätzliche Informationen auf der Grundlage selbst generierter Zitate zu suchen und so ihre Antworten kontinuierlich zu verfeinern.

Der Trainingsprozess für AGREE umfasst mehrere Schritte. Zunächst werden synthetische Daten aus unbeschrifteten Abfragen gesammelt und relevante Passagen aus zuverlässigen Quellen wie Wikipedia mithilfe eines Retriever-Modells abgerufen. Diese Passagen werden dann dem Basis-LLM vorgelegt, der erste Antworten ohne Zitate generiert. Ein NLI-Modell wird verwendet, um die Stützung für jede Behauptung zu ermitteln und den unterstützenden Passagen entsprechende Zitate hinzuzufügen. Sätze ohne unterstützende Passagen erhalten keine Zitate.

Effektivität und Robustheit

Experimente an fünf Datensätzen haben gezeigt, dass AGREE die Begründung und Zitiergenauigkeit im Vergleich zu deutlich verbessert Basismethoden. Das Framework hat eine relative Verbesserung der Erdungsqualität um über 30 % gezeigt. Die Robustheit von AGREE ist offensichtlich, da es auch bei Daten außerhalb der Domäne eine gute Leistung erbringt, was auf seine Vielseitigkeit bei verschiedenen Fragetypen hinweist, einschließlich solcher, die Wissen außerhalb der Trainingsdaten des Modells erfordern. Die Einbeziehung der Testzeitanpassung (Test-Time Adaptation, TTA) verbessert sowohl die Grundlagen als auch die Antwortkorrektheit weiter, indem sie es dem LLM ermöglicht, aktiv nach relevanteren Passagen zu suchen, um bessere Antworten zu erstellen.

In den letzten Jahren haben LLMs erhebliche Fortschritte bei ihren Fähigkeiten gemacht wie Multi-Hop-Argumentation, Generierung von Plänen und Nutzung von Tools und APIs. Allerdings ist das Problem der Halluzinationen nach wie vor eine anhaltende Herausforderung. Der Ansatz von AGREE, lernbasierte Anpassung mit Testzeitanpassung zu kombinieren, bietet eine vielversprechende Lösung. Indem es LLMs ermöglicht, ihre Antworten selbst zu begründen und präzise Zitate bereitzustellen, erhöht AGREE das Vertrauen der Benutzer und erweitert die potenziellen Anwendungen von LLMs in verschiedenen Bereichen, die eine hohe sachliche Genauigkeit erfordern.

Experimentelle Validierung

Die Wirksamkeit von AGREE wurde durch umfassende Experimente validiert, bei denen sowohl domäneninterne als auch domänenexterne Datensätze verwendet wurden. Die Tuning-Daten wurden mithilfe von Abfragen aus Datensätzen wie Natural Questions, StrategyQA und Fever, die vielfältigen Text liefern und unterschiedliche Argumentationsprozesse erfordern. AGREE passt das Basis-LLM mithilfe von domäneninternen Trainingssätzen an und testet das Modell an Datensätzen außerhalb der Domäne, um seine Generalisierungsfähigkeiten zu bewerten. Die Ergebnisse zeigen, dass sich die Verbesserungen von AGREE effektiv auf verschiedene Fragetypen und externe Wissensquellen übertragen lassen.

Categories: IT Info