Neue Methode zur Erkennung von Halluzinationen in großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

March 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Forschende der Sapienza Universität Rom haben eine neue Methode zur Halluzinationserkennung in großen Sprachmodellen (LLMs) entwickelt.
Die Methode basiert auf der Analyse von "verschütteter Energie" in der Softmax-Schicht des LLM, einer physikalisch inspirierten Metrik.
"Verschüttete Energie" korreliert empirisch stark mit Fehlern, Ungenauigkeiten und Verzerrungen in den generierten Ausgaben.
Im Gegensatz zu früheren Ansätzen ist diese Methode vollständig trainingsfrei und generalisiert über verschiedene Aufgaben und LLMs hinweg.
Sie übertrifft trainierte Klassifikatoren und einfache Logit-Konfidenzwerte bei der Erkennung von Halluzinationen.
Die Lokalisierung der Fehler auf exakte Antwort-Tokens ist entscheidend für die Leistungsfähigkeit der Methode.
Fine-Tuning kann die Erkennungsrate weiter verbessern, während es bei konfidenzbasierten Methoden kontraproduktiv sein kann.
Einschränkungen bestehen bei der Erkennung von nicht-semantischen Token wie Satzzeichen oder Satzanfängen, die fälschlicherweise als "verschüttete Energie" interpretiert werden können.

Neue Einblicke in die mathematischen Signaturen von LLM-Halluzinationen

Die unaufhaltsame Entwicklung großer Sprachmodelle (LLMs) hat transformative Potenziale in zahlreichen Branchen freigesetzt. Gleichzeitig stellen Phänomene wie "Halluzinationen" – die Generierung faktisch falscher oder inkonsistenter Informationen – weiterhin eine signifikante Herausforderung dar, insbesondere in B2B-Anwendungen, wo Präzision und Verlässlichkeit von größter Bedeutung sind. Eine aktuelle Forschungsarbeit der Sapienza Universität Rom beleuchtet einen neuartigen Ansatz zur Detektion dieser Halluzinationen, indem sie tiefer in die mathematischen Mechanismen von LLMs eintaucht.

Das Softmax-Layer als Energiebasiertes Modell

Die Grundlage dieser neuen Methode ist eine Neuperspektivierung der finalen Softmax-Klassifikationsschicht von LLMs. Traditionell wandelt diese Schicht die Rohausgaben des Modells (Logits) in Wahrscheinlichkeiten für das nächste Wort um. Die Forscher interpretieren diese Schicht als ein energiebasiertes Modell (EBM). In diesem physikalisch inspirierten Rahmen korrespondieren niedrige Energiewerte mit hohen Wahrscheinlichkeiten. Da autoregressive LLMs ihre Ausgaben Token für Token generieren, berechnet das Modell bei jedem Schritt die Wahrscheinlichkeit für jedes mögliche nächste Wort.

Die zentrale Erkenntnis ist, dass bestimmte Energiewerte zwischen aufeinanderfolgenden Vorhersageschritten mathematisch identisch sein sollten, da sie dieselbe Größe aus verschiedenen Blickwinkeln beschreiben. In der Praxis weichen diese Werte jedoch voneinander ab. Diese Diskrepanz bezeichnen die Wissenschaftler als "verschüttete Energie" (spilled energy). Empirische Analysen zeigen, dass diese "verschüttete Energie" stark mit Fehlern, Ungenauigkeiten und Verzerrungen in den Ausgaben des LLM korreliert. Bei einer Halluzination ist die "verschüttete Energie" signifikant höher als bei korrekten Antworten.

Trainingsfreie Detektion und überlegene Generalisierung

Ein entscheidender Vorteil der "Spilled Energy"-Methode ist ihre Trainingsfreiheit. Im Gegensatz zu früheren Ansätzen, die oft kleine Klassifikatormodelle auf den internen Zuständen eines LLM trainieren mussten, um Fehler zu erkennen, benötigt diese neue Methode keine zusätzlichen Trainingsdaten oder Modellanpassungen. Dies ermöglicht eine breitere Anwendbarkeit und Skalierbarkeit über verschiedene LLMs und Aufgaben hinweg.

Die Forscher betonen zudem die Wichtigkeit der präzisen Lokalisierung der Fehler. Nur die Tokens, die die eigentliche Antwort bilden, sollten in die Bewertung einfließen. Beispielsweise ist bei der Frage nach der Hauptstadt Italiens nur das Wort "Rom" oder "Sydney" relevant, nicht die umgebende Satzstruktur. Diese gezielte Fehlerlokalisierung kann die Detektionsleistung um bis zu 24 Prozent steigern.

Leistungsvergleich und empirische Ergebnisse

Die Methode wurde auf neun etablierten Benchmarks getestet, darunter TriviaQA, HotpotQA, IMDB und Math, sowie auf synthetischen Rechenaufgaben mit 13-stelligen Zahlen. Die Evaluation umfasste verschiedene LLMs wie LLaMA-3 8B, Mistral-7B, Gemma (1B und 4B) und Qwen3-8B, jeweils in vorab trainierten und instruktionsorientierten Varianten. Die Genauigkeit der Halluzinationserkennung wurde mittels der AuROC-Metrik (Area Under the Receiver Operating Characteristic Curve) gemessen, die die Fähigkeit einer Methode quantifiziert, korrekte von inkorrekten Antworten zu unterscheiden. Ein Wert von 50 Prozent entspricht Zufall, 100 Prozent wäre eine perfekte Erkennung.

Die Ergebnisse zeigten eine klare Überlegenheit der "Spilled Energy"-Methode: Auf Mistral-Instruct erreichte sie durchschnittlich 77,49 Prozent AuROC, verglichen mit 65,56 Prozent für trainierte Klassifikatoren und 63,44 Prozent für einfache Logit-Konfidenz. Die bloße Abfrage des Modells nach der Korrektheit der eigenen Antwort lag bei etwa 55 Prozent, kaum über dem Zufallsniveau.

Besonders hervorzuheben ist die Generalisierungsfähigkeit der Methode. Während trainierte Klassifikatoren bei der Anwendung auf neue Datensätze oft nahe an Zufallswerte abfielen, lieferte "Spilled Energy" stabile Ergebnisse ohne zusätzliches Training. Interessanterweise zeigte sich, dass Instruktions-Tuning, also die Anpassung des Modells an menschliche Anweisungen, die konfidenzbasierte Halluzinationserkennung beeinträchtigte, da feinabgestimmte Modelle tendenziell übermäßig selbstsicher sind. Die "Spilled Energy"-Methode profitierte hingegen von diesem Prozess, mit einer Steigerung der Erkennungsrate von 68,69 auf 73,16 Prozent bei LLaMA-3 und von 73,94 auf 77,49 Prozent bei Mistral. Auch bei Gemma-Modellen verschiedener Größenordnungen (1B und 4B Parameter) bestätigte sich die Wirksamkeit des Ansatzes.

Herausforderungen und zukünftige Perspektiven

Trotz der vielversprechenden Ergebnisse weisen die Forscher auf bestimmte Einschränkungen hin. Die "Spilled Energy"-Methode kann gelegentlich Fehlalarme bei nicht-semantischen Token wie Satzzeichen oder Wörtern am Satzanfang auslösen. An solchen Stellen verteilt sich die Wahrscheinlichkeitsmasse naturgemäß auf viele plausible Folgewörter, was die Energiewerte in die Höhe treiben kann. Die korrekte Identifizierung der tatsächlichen Antwort-Tokens bleibt daher ein kritischer Faktor.

Die "Spilled Energy"-Methode kann Halluzinationen nicht verhindern, bietet jedoch ein mathematisch fundiertes Werkzeug, um sie während der Textgenerierung zu erkennen. Dies ist von großer Bedeutung für die Entwicklung verlässlicherer KI-Systeme, insbesondere in geschäftskritischen Anwendungen. Die Bereitstellung des Codes auf GitHub fördert zudem die weitere Forschung und Implementierung dieses vielversprechenden Ansatzes in der Praxis.

Für B2B-Anwendungen, die auf die Verlässlichkeit von KI-generierten Inhalten angewiesen sind, wie sie beispielsweise Mindverse als KI-Partner anbietet, stellt diese Entwicklung einen wichtigen Schritt dar. Die Fähigkeit, die Verlässlichkeit von LLM-Ausgaben objektiv und trainingsfrei zu bewerten, kann die Akzeptanz und den sicheren Einsatz von KI in Unternehmen maßgeblich vorantreiben. Es bleibt abzuwarten, wie sich diese Erkenntnisse in zukünftigen Generationen von LLMs und deren Anwendungsfällen niederschlagen werden.

Bibliography: - Minut, A. R., Dewidar, H., & Masi, I. (2026). *Spilled Energy in Large Language Models*. ICLR 2026. (Verfügbar auf arXiv:2602.18671 und OpenReview: EXFKk4Y3yc) - Suresh, P., Stanley, J., Joseph, S., Scimeca, L., & Bzdok, D. (2025). *From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers*. (Verfügbar auf arXiv:2509.06938) - Gnoppix Forum. (n.d.). *When language models hallucinate, they leave "spilled energy" in their own math*. Verfügbar unter: https://forum.gnoppix.org/t/when-language-models-hallucinate-they-leave-spilled-energy-in-their-own-math/4851 - Reddit. (n.d.). *When language models hallucinate, they leave "spilled energy" in ...*. Verfügbar unter: https://www.reddit.com/r/grAIve/comments/1rnu3lu/when_language_models_hallucinate_they_leave/ - Tavish9. (n.d.). *awesome-daily-AI-arxiv*. GitHub. Verfügbar unter: https://github.com/Tavish9/awesome-daily-AI-arxiv - The Decoder. (n.d.). *Jonathan Kemper*. Verfügbar unter: https://the-decoder.com/author/jonathan-kemper/