KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Benchmark HalluHard zur Bewertung von Halluzinationen in großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
February 6, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das neue Benchmark HalluHard wurde entwickelt, um die Herausforderungen bei der Bewertung von Halluzinationen in großen Sprachmodellen (LLMs) zu adressieren, insbesondere in komplexen Multi-Turn-Szenarien.
    • HalluHard überwindet die Beschränkungen früherer Benchmarks, die oft auf Single-Turn-Szenarien beschränkt waren und eine geringere Evaluierungsfähigkeit besaßen.
    • Das Benchmark umfasst 950 Ausgangsfragen in vier spezifischen Domänen: Rechtsfälle, Forschungsfragen, medizinische Leitlinien und Programmierung, um eine umfassende Abdeckung zu gewährleisten.
    • Ein zentrales Merkmal ist die Fähigkeit zur rigorosen Verifizierung von Fakten, die das Lesen und Parsen von Volltextquellen, einschließlich PDFs, ermöglicht.
    • Halluzinationsraten nehmen in späteren Gesprächsrunden bei zitierungsbasierten Aufgaben zu, da Modelle frühere Fehler rekursiv wiederholen.
    • Leistungsfähigere Modelle, insbesondere größere und neuere Flaggschiff-Modelle, zeigen durchweg niedrigere Halluzinationsraten.
    • Selbst die stärksten Modellkonfigurationen weisen weiterhin erhebliche Halluzinationsraten von etwa 30 % auf, was die Notwendigkeit einer besseren Unsicherheitserkennung und Verifizierung unterstreicht.
    • Die Unterscheidung zwischen extrinsischen Halluzinationen (Inkonsistenz mit Trainingsdaten) und intrinsischen Halluzinationen (Inkonsistenz mit dem Eingabekontext) ist für eine präzise Bewertung entscheidend.

    Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der großen Sprachmodelle (LLMs), hat beeindruckende Fortschritte in der Generierung menschenähnlicher Texte ermöglicht. Gleichzeitig birgt diese Technologie jedoch eine signifikante Herausforderung: die sogenannte "Halluzination". Halluzinationen treten auf, wenn LLMs Inhalte generieren, die plausibel klingen, aber faktisch inkorrekt sind oder nicht durch die bereitgestellten Quellen gestützt werden. Dieses Phänomen untergräbt das Vertrauen der Nutzer und erschwert die breite Akzeptanz generativer KI-Systeme im B2B-Bereich. Um dieser Problematik entgegenzuwirken, wurde ein neues und umfassendes Benchmark namens HalluHard entwickelt. Dieses zielt darauf ab, die Halluzinationsneigung von LLMs in komplexen, mehrstufigen Interaktionen präzise zu messen und zu bewerten.

    Die Notwendigkeit eines neuen Benchmarks

    Bisherige Benchmarks zur Bewertung von LLM-Halluzinationen zeigten oft Limitierungen. Sie waren häufig auf einfache, einstufige Szenarien (Single-Turn) beschränkt und besaßen eine begrenzte Fähigkeit zur rigorosen Faktencheck-Evaluierung. Diese Ansätze reichten nicht aus, um die komplexen Verhaltensweisen moderner LLMs in realitätsnahen Dialogen abzubilden. Die Notwendigkeit eines Benchmarks, das Multi-Turn-Szenarien adäquat bewerten und eine tiefgehende Verifizierung von Quellenmaterial ermöglichen kann, wurde daher immer deutlicher.

    HalluHard: Ein Multi-Turn-Benchmark für LLMs

    HalluHard wurde konzipiert, um diese Lücken zu schließen. Es handelt sich um ein anspruchsvolles Multi-Turn-Halluzinations-Benchmark, das 950 Ausgangsfragen in vier unterschiedlichen und anspruchsvollen Domänen umfasst:

    • Rechtsfälle (250 Fragen): Hierbei werden LLMs auf ihre Fähigkeit getestet, juristische Informationen korrekt zu interpretieren und wiederzugeben.
    • Forschungsfragen (250 Fragen): In diesem Bereich wird die Genauigkeit bei der Verarbeitung und Synthese wissenschaftlicher Informationen bewertet.
    • Medizinische Leitlinien (250 Fragen): Die korrekte Wiedergabe medizinischer Fakten und Empfehlungen steht hier im Vordergrund.
    • Programmierung (200 Fragen): Hier wird die Fähigkeit der Modelle geprüft, technische Anweisungen und Code-bezogene Informationen präzise zu generieren.

    Ein wesentliches Merkmal von HalluHard ist seine Fähigkeit, offene Antworten zu bewerten und dabei zu verlangen, dass faktische Behauptungen in zitierten Quellen verankert sind. Dies stellt sicher, dass sich das Benchmark spezifisch auf Halluzinationen (unbegründete faktische Fehler) konzentriert und nicht auf andere Aspekte der Antwortqualität.

    Der Bewertungsprozess im Detail

    Der Bewertungsprozess von HalluHard ist mehrstufig und detailliert:

    1. Generierung von Folgefragen: Ein Benutzer-LLM generiert auf Basis des bisherigen Gesprächsverlaufs ansprechende Folgefragen, wodurch natürliche Multi-Turn-Dialoge entstehen.
    2. Antwortgenerierung: Das zu testende LLM beantwortet die Fragen.
    3. Fakt-Verifizierung: Für die Domänen Recht, Forschung und Medizin werden pro Antwort fünf Behauptungen stichprobenartig ausgewählt und einzeln bewertet. Bei Programmieraufgaben wird die gesamte Antwort beurteilt.
    4. Evidenz-Retrieval: Die Verifizierungspipeline extrahiert Behauptungen, ruft Beweise über Websuchen ab und analysiert Volltextquellen, einschließlich PDFs, um zu überprüfen, ob das generierte Material durch die zitierten Quellen gestützt wird.

    Ein Beispiel für eine halluzinierte Behauptung könnte sein, wenn ein Modell eine Quelle korrekt zitiert, der Inhalt der Behauptung jedoch teilweise erfunden ist und nicht der zitierten Quelle entspricht. Ein solcher Fall wird als Halluzination eingestuft.

    Wichtige Erkenntnisse aus HalluHard

    Die Anwendung von HalluHard hat mehrere zentrale Erkenntnisse über das Halluzinationsverhalten von LLMs geliefert:

    • Zunahme der Halluzinationen in späteren Runden: Modelle neigen dazu, in späteren Gesprächsrunden bei zitierungsbasierten Aufgaben stärker zu halluzinieren, da sie auf ihren eigenen früheren Fehlern aufbauen. Dies führt dazu, dass zwischen 3 % und 20 % der falschen Referenzen erneut auftauchen. Im Bereich der Programmierung zeigt sich jedoch ein abnehmender Trend, da die Aufgaben von breit zu fokussiert übergehen.
    • Modellkapazität ist entscheidend: Leistungsstärkere Modelle weisen konsistent niedrigere Halluzinationsraten auf. Größere Modelle (z.B. GPT-5-nano → GPT-5-mini → GPT-5) und neuere Flaggschiff-Modelle (z.B. GPT-5.2, Claude-Opus) zeigen erhebliche Verbesserungen in allen Domänen.
    • Argumentation ist hilfreich, aber nicht ausreichend: Eine effektive Argumentationsfähigkeit kann bei der Minderung von Halluzinationen in GPT-Modellen helfen. Dieser Effekt ist jedoch modellabhängig (DeepSeek-Reasoner zeigt keine Verbesserung). Eine stärkere Argumentationsfähigkeit kann paradoxerweise das Halluzinationsrisiko erhöhen, indem sie längere Antworten mit mehr Behauptungen produziert.
    • Inhaltsverankerung bleibt eine Herausforderung: Fehler bei der Inhaltsverankerung sind weitaus häufiger als Fehler bei der Referenzverankerung. Obwohl die Websuche Referenzfehler reduziert, bleibt es schwierig sicherzustellen, dass der generierte Inhalt tatsächlich durch die zitierten Quellen gestützt wird, insbesondere bei PDF-basierten Forschungsarbeiten.
    • Nischenwissen vs. fabrizierte Informationen: Modelle haben Schwierigkeiten mit Nischenfakten (die einige Trainingsspuren aufweisen), enthalten sich aber bei vollständig erfundenen Elementen. Dies schafft eine "gefährliche Mittelzone", in der Modelle sich in der Lage fühlen, Antworten zu geben und fehlende Details mit "wahrscheinlichsten" Informationen zu füllen, was zu Halluzinationen führt.
    • Anhaltend hohe Halluzinationsraten: Selbst die stärksten Modellkonfigurationen (Claude-Opus-4.5 und GPT-5.2 mit Websuche) weisen weiterhin erhebliche Halluzinationsraten von etwa 30 % auf. Dies unterstreicht die Notwendigkeit einer besseren Unsicherheitserkennung und Verifizierung im Umgang mit Nischen- oder Long-Tail-Wissen.

    Die Unterscheidung zwischen Halluzination und Faktizität

    Im Kontext von LLMs ist es entscheidend, zwischen Halluzination und Faktizität zu unterscheiden. Während Faktizität die absolute Korrektheit des generierten Inhalts im Hinblick auf etablierte Verifizierungsquellen betrifft, definiert sich Halluzination durch die Inkonsistenz des Modellausgangs mit den Trainingsdaten oder dem Eingabekontext. HalluHard konzentriert sich auf extrinsische Halluzinationen, bei denen der generierte Inhalt nicht mit den Trainingsdaten des Modells übereinstimmt und weder durch den Eingabekontext gestützt noch widerlegt werden kann.

    Ein verwandtes Benchmark, HalluLens, befasst sich ebenfalls mit dieser Unterscheidung und führt eine klare Taxonomie von Halluzinationen ein. Es unterscheidet zwischen:

    • Extrinsische Halluzinationen: Hier weicht der generierte Inhalt von den Trainingsdaten ab. Dies tritt auf, wenn Modelle neue Inhalte generieren oder Wissenslücken füllen, was auf die Grenzen des Modells bei der Aufnahme von Wissen aus den Trainingsdaten und seine Unfähigkeit, die Grenzen seines Wissens zu erkennen, hinweist.
    • Intrinsische Halluzinationen: Hier ist der generierte Inhalt inkonsistent mit dem Eingabekontext. Dies geschieht, wenn Modelle den Eingabekontext falsch verstehen und Inhalte generieren, die diesem widersprechen oder nicht durch ihn gestützt werden.

    HalluLens hebt hervor, dass bestehende Benchmarks oft nicht ausreichend zwischen diesen Typen unterscheiden und statische Testsets anfällig für Datenlecks sind. Daher schlägt HalluLens dynamische Testset-Generierung vor, um Robustheit und Reproduzierbarkeit zu gewährleisten.

    Implikationen für B2B-Anwendungen

    Für Unternehmen, die LLMs in ihren Geschäftsprozessen einsetzen, sind diese Erkenntnisse von großer Bedeutung. Halluzinationen können zu falschen Empfehlungen, irreführenden Informationen in Kundenkommunikation oder inkorrekten Analysen führen. Dies kann nicht nur zu Reputationsschäden, sondern auch zu finanziellen Verlusten und rechtlichen Problemen führen.

    Die Ergebnisse von HalluHard und HalluLens unterstreichen die Notwendigkeit, bei der Implementierung von LLMs im B2B-Sektor auf Modelle zu setzen, die nicht nur leistungsfähig, sondern auch hinsichtlich ihrer Halluzinationsanfälligkeit gut bewertet sind. Eine sorgfältige Auswahl und kontinuierliche Überwachung der eingesetzten Modelle ist unerlässlich. Darüber hinaus ist die Entwicklung und Implementierung von Mechanismen zur Unsicherheitserkennung und zur Verifizierung von generierten Inhalten von größter Wichtigkeit.

    Die Fähigkeit von HalluHard, komplexe Multi-Turn-Dialoge und die Verankerung von Fakten in Volltextquellen zu bewerten, bietet eine solidere Grundlage für die Auswahl und Optimierung von LLM-Modellen für geschäftskritische Anwendungen. Durch die Berücksichtigung dieser Erkenntnisse können Unternehmen das Vertrauen in KI-generierte Inhalte stärken und die Vorteile dieser Technologien sicherer nutzen.

    Zukünftige Entwicklungen

    Die Forschung im Bereich der LLM-Halluzinationen ist weiterhin sehr aktiv. Benchmarks wie HalluHard und HalluLens tragen maßgeblich dazu bei, ein tieferes Verständnis für die Ursachen und Erscheinungsformen von Halluzinationen zu entwickeln. Zukünftige Arbeiten werden sich voraussichtlich auf folgende Bereiche konzentrieren:

    • Verbesserung der Verifizierungsmechanismen: Die Entwicklung noch präziserer und effizienterer Methoden zur automatischen Überprüfung von Fakten in komplexen und mehrsprachigen Kontexten.
    • Minderung von Halluzinationen: Erforschung und Implementierung neuer Trainingsstrategien und Modellarchitekturen, um die Halluzinationsanfälligkeit von LLMs weiter zu reduzieren.
    • Benutzerzentrierte Metriken: Entwicklung von Metriken, die nicht nur die technische Korrektheit, sondern auch die Auswirkungen von Halluzinationen auf die Benutzererfahrung und das Vertrauen berücksichtigen.
    • Multimodale Halluzinationen: Die Erweiterung von Benchmarks auf multimodale LLMs, die Text, Bilder und andere Daten verarbeiten, um Halluzinationen in diesen komplexeren Szenarien zu bewerten.

    Die kontinuierliche Arbeit an solchen Benchmarks ist entscheidend, um die Zuverlässigkeit und Vertrauenswürdigkeit von LLMs zu erhöhen und somit ihren sicheren und effektiven Einsatz in einer Vielzahl von B2B-Anwendungen zu ermöglichen.

    Bibliography - Fan, D., Delsad, S., Flammarion, N., & Andriushchenko, M. (2026). HalluHard: A Hard Multi-Turn Hallucination Benchmark. arXiv preprint arXiv:2602.01031. - Bang, Y., Ji, Z., Schelten, A., Hartshorn, A., Fowler, T., Zhang, C., Cancedda, N., & Fung, P. (2025). HalluLens: LLM Hallucination Benchmark. arXiv preprint arXiv:2504.17550. - Vectara. (2024). Hallucination Leaderboard. Verfügbar unter: https://github.com/vectara/hallucination-leaderboard - RUCAIBox. (2023). HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models. Verfügbar unter: https://github.com/RUCAIBox/HaluEval - Emergent Mind. (2025). POPE and MMHal-Bench Benchmarks. Verfügbar unter: https://www.emergentmind.com/topics/pope-and-mmhal-bench-benchmarks - Vectara. (2024). HHEM v2: A New and Improved Factual Consistency Scoring Model. Verfügbar unter: https://www.vectara.com/blog/hhem-v2-a-new-and-improved-factual-consistency-scoring-model - Luo, W., Shen, T., Li, W., Peng, G., Xuan, R., Wang, H., & Yang, X. (2024). HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation. arXiv preprint arXiv:2406.07070.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen